免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: 瑞安3980
打印 上一主题 下一主题

python解决数据信息提取 [复制链接]

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
11 [报告]
发表于 2016-01-22 11:18 |只看该作者
你给的信息里面似乎不满足你说的两个条件。 行数也不等于, 也没有C1是一行的情况。 上面的文件结果是
  1. 13 11
  2. 4 3
  3. 4 2
  4. 5 3
复制代码
前面的列是AF, 后面是 C1

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
12 [报告]
发表于 2016-01-22 17:28 |只看该作者
本帖最后由 sunzhiguolu 于 2016-01-22 17:29 编辑

回复 11# haooooaaa
也没有C1是一行的情况

C1 Univ Cape Town, Dept Geog & Environm Sci, ZA-7701 Rondebosch, South Africa.
   Univ Cape Town, Dept Oceanog, ZA-7701 Rondebosch, South Africa.
RP Reason, CJC (reprint author), Univ Cape Town, Dept Geog & Environm Sci, Private Bag, ZA-7701 Rondebosch, South Africa.

   

论坛徽章:
0
13 [报告]
发表于 2016-01-22 17:46 |只看该作者
看你关心文章的内容,也是生物相关,却不是MEDLINE, 哪里的来源呀?为什么不用PUBMED, Biopython提供很好的接口的。

要是一定要这个,逻辑也很简单,有必要再回。

论坛徽章:
5
巨蟹座
日期:2014-08-28 18:12:342015年迎新春徽章
日期:2015-03-04 10:01:4415-16赛季CBA联赛之江苏
日期:2016-04-28 09:43:3115-16赛季CBA联赛之吉林
日期:2016-06-22 10:34:4315-16赛季CBA联赛之山西
日期:2016-08-16 16:29:55
14 [报告]
发表于 2016-01-25 13:34 |只看该作者
本帖最后由 Linux_manne 于 2016-01-25 13:59 编辑
  1. f = open("test.txt")
  2. content_list = f.readlines()
  3. AF_LIST = []
  4. C1_LIST = []
  5. AF_OUTER_LIST = []
  6. C1_OUTER_LIST = []
  7. for n,content in enumerate(content_list):
  8.     if content.startswith('AF'):
  9.         AF_LIST.append(content.replace("AF",'').strip())
  10.         while content_list[n+1].startswith(' '):
  11.             AF_LIST.append(content_list[n+1].strip())
  12.             n = n + 1
  13.         AF_OUTER_LIST.append(AF_LIST)

  14.     if content.startswith("C1"):
  15.         C1_LIST.append(content.replace("C1",'').split(',')[-1].strip())
  16.         while content_list[n+1].startswith(' '):
  17.             x = content_list[n+1].split(',')[-1]
  18.             C1_LIST.append(x.strip())
  19.             n = n + 1
  20.         C1_OUTER_LIST.append(C1_LIST)
  21.     else:
  22.         AF_LIST = []
  23.         C1_LIST = []

  24. print AF_OUTER_LIST
  25. print C1_OUTER_LIST

  26. for i,al in enumerate(AF_OUTER_LIST):
  27.     if len(al) == len(C1_OUTER_LIST[i]):
  28.         print zip(al,C1_OUTER_LIST[i])

  29.     elif len(C1_OUTER_LIST[i]) == 1:
  30.         print zip(al, C1_OUTER_LIST[i] * len(AF_OUTER_LIST[i]))
复制代码
你看下 我没仔细验证过...
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP