免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 11129 | 回复: 6
打印 上一主题 下一主题

python 按列名提取多列 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-08-16 05:04 |只看该作者 |倒序浏览
本帖最后由 小风0000 于 2016-08-16 05:07 编辑
  1. dat='''
  2. SNPID A702Y A704Y A706Y A708Y A710Y
  3. ARS-BFGL-BAC-10172 CC CC CC CC CC
  4. ARS-BFGL-BAC-1020 CC CC CT CC CC
  5. '''

  6. names=["SNPID","A702Y","A710Y"]
复制代码
由于数据比较大,有4万行,7000列,要提出800列的数据,大家有什么好的办法吗?

  1. script,originalFN,targetFN = sys.argv
  2. originalInds = open(originalFN).readline().strip().split()
  3. targetInds = [line.strip() for line in open(targetFN)]
  4. targetF=open("targetInds.txt","w")

  5. #find index
  6. idx = [ originalInds.index(ind) for ind in targetInds if ind in originalInds ]
  7. idx.insert(0,0)

  8. #output
  9. for num,line in enumerate(open(originalFN)):
  10.     print num
  11.     tmp = [line.strip().split()[i] for i in idx]
  12.     targetF.write(" ".join(tmp)+"\n")

  13. targetF.close()
复制代码
这是我写的代码,先取出列名的下标,再在大文件一行行弄出来,有点慢,求助!

论坛徽章:
0
2 [报告]
发表于 2016-08-16 10:36 |只看该作者
你可以用pandas库,都有封装

论坛徽章:
0
3 [报告]
发表于 2016-08-16 12:02 |只看该作者
回复 2# 吃瓜群众

不行啊,直接报错,out of memory。文件太大了,有没有什么更好的办法?

   

论坛徽章:
0
4 [报告]
发表于 2016-08-16 14:33 |只看该作者
回复 3# 小风0000
你可以把大文件分成小文件处理,最后再归并。

   

论坛徽章:
0
5 [报告]
发表于 2016-08-16 23:20 |只看该作者
回复 4# 吃瓜群众

不应该啊,我用python就想着处理大文件方便,要是分成小文件,我还不如用R处理。
肯定有更简单,高效地写法吧!

   

论坛徽章:
11
2015年迎新春徽章
日期:2015-03-04 09:55:282017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之辽宁
日期:2016-12-15 10:24:1715-16赛季CBA联赛之佛山
日期:2016-11-30 09:04:2015-16赛季CBA联赛之江苏
日期:2016-04-29 15:56:1215-16赛季CBA联赛之同曦
日期:2016-04-12 13:21:182016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之山东
日期:2016-02-16 11:37:52每日论坛发贴之星
日期:2016-02-07 06:20:00程序设计版块每日发帖之星
日期:2016-02-07 06:20:0015-16赛季CBA联赛之新疆
日期:2018-01-09 16:25:37
6 [报告]
发表于 2016-08-18 08:24 |只看该作者
对于这样的情况,一定要用到mmap才行

论坛徽章:
0
7 [报告]
发表于 2016-09-19 00:55 |只看该作者
#output
num = 0
for line in open(originalFN).xreadlines() :
    num += 1
    print num
    tmp = [line.strip().split()[i] for i in idx]
    targetF.write(" ".join(tmp)+"\n")
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP