免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › python解决数据信息提取

12 / 2 页

最近访问板块

发新帖

楼主: 瑞安3980

上一主题

下一主题

python解决数据信息提取 [复制链接]

论坛徽章:: 54

2015亚冠之德黑兰石油
日期:2015-07-07 13:00:16

15-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:54

15-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15

程序设计版块每日发帖之星
日期:2016-05-12 06:20:00

15-16赛季CBA联赛之四川
日期:2016-05-13 15:19:47

15-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34

每日论坛发贴之星
日期:2016-05-16 06:20:00

15-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:47

15-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18

极客徽章
日期:2016-12-07 14:05:23

15-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:53

2017金鸡报晓
日期:2017-01-10 15:19:56

11楼 [报告]

发表于 2016-01-22 11:18 |只看该作者

你给的信息里面似乎不满足你说的两个条件。行数也不等于，也没有C1是一行的情况。上面的文件结果是

13 11
4 3
4 2
5 3

复制代码

前面的列是AF，后面是 C1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 307

程序设计版块每周发帖之星
日期:2016-04-08 00:41:33

操作系统版块每日发帖之星
日期:2015-09-02 06:20:00

每日论坛发贴之星
日期:2015-09-02 06:20:00

程序设计版块每日发帖之星
日期:2015-09-04 06:20:00

每日论坛发贴之星
日期:2015-09-04 06:20:00

每周论坛发贴之星
日期:2015-09-06 22:22:00

程序设计版块每日发帖之星
日期:2015-09-09 06:20:00

程序设计版块每日发帖之星
日期:2015-09-19 06:20:00

程序设计版块每日发帖之星
日期:2015-09-20 06:20:00

每日论坛发贴之星
日期:2015-09-20 06:20:00

程序设计版块每日发帖之星
日期:2015-09-22 06:20:00

程序设计版块每日发帖之星
日期:2015-09-24 06:20:00

12楼 [报告]

发表于 2016-01-22 17:28 |只看该作者

本帖最后由 sunzhiguolu 于 2016-01-22 17:29 编辑

回复 11# haooooaaa

也没有C1是一行的情况

C1 Univ Cape Town, Dept Geog & Environm Sci, ZA-7701 Rondebosch, South Africa.
Univ Cape Town, Dept Oceanog, ZA-7701 Rondebosch, South Africa.
RP Reason, CJC (reprint author), Univ Cape Town, Dept Geog & Environm Sci, Private Bag, ZA-7701 Rondebosch, South Africa.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

13楼 [报告]

发表于 2016-01-22 17:46 |只看该作者

看你关心文章的内容，也是生物相关，却不是MEDLINE, 哪里的来源呀？为什么不用PUBMED, Biopython提供很好的接口的。

要是一定要这个，逻辑也很简单，有必要再回。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 5

巨蟹座
日期:2014-08-28 18:12:34

2015年迎新春徽章
日期:2015-03-04 10:01:44

15-16赛季CBA联赛之江苏
日期:2016-04-28 09:43:31

15-16赛季CBA联赛之吉林
日期:2016-06-22 10:34:43

15-16赛季CBA联赛之山西
日期:2016-08-16 16:29:55

14楼 [报告]

发表于 2016-01-25 13:34 |只看该作者

本帖最后由 Linux_manne 于 2016-01-25 13:59 编辑

f = open("test.txt")
content_list = f.readlines()
AF_LIST = []
C1_LIST = []
AF_OUTER_LIST = []
C1_OUTER_LIST = []
for n,content in enumerate(content_list):
if content.startswith('AF'):
AF_LIST.append(content.replace("AF",'').strip())
while content_list[n+1].startswith(' '):
AF_LIST.append(content_list[n+1].strip())
n = n + 1
AF_OUTER_LIST.append(AF_LIST)
if content.startswith("C1"):
C1_LIST.append(content.replace("C1",'').split(',')[-1].strip())
while content_list[n+1].startswith(' '):
x = content_list[n+1].split(',')[-1]
C1_LIST.append(x.strip())
n = n + 1
C1_OUTER_LIST.append(C1_LIST)
else:
AF_LIST = []
C1_LIST = []
print AF_OUTER_LIST
print C1_OUTER_LIST
for i,al in enumerate(AF_OUTER_LIST):
if len(al) == len(C1_OUTER_LIST[i]):
print zip(al,C1_OUTER_LIST[i])
elif len(C1_OUTER_LIST[i]) == 1:
print zip(al, C1_OUTER_LIST[i] * len(AF_OUTER_LIST[i]))

复制代码

你看下我没仔细验证过...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

发新帖

Chinaunix › 论坛 › 程序设计 › Python › python解决数据信息提取

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP