免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1287 | 回复: 0
打印 上一主题 下一主题

求解,对于大文件应该怎样处理 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-22 12:26 |只看该作者 |倒序浏览
现在有记录SNP信息的文件,第一列表示染色体,第二列表示在染色体上的位点,第三列表示参考基因组上的碱基,第四列表示该样本的碱基。
这样的文件有三个,表示三个样本。现在需要根据这三个文件,生成genotype文件,第一列表示染色体,第二列表示位点,第三列表示参考基因组上的碱基,后面每列表示一个样本在该位点的碱基。
现在的问题主要是,比如在A样本中,1号染色体第250个位点上有一个SNP,在另外两个样本的SNP文件中,没有记录该位点,现在需要确认是因为该位点与参考基因组相同,还是测序的时候没有测到这个位点,就需要到该样本的baseinfo文件中找到对应的位点,然后看第14列是否为0,如果小于3(很多为0的表示没测到),表示没测到这个点或者结果不可靠,那么在genotype中以“--”表示,如果大于3,则表示结果可靠,测到了该位点,则以实际的碱基记录下来。
现在每个样本的baseinfo文件大约有5G,5000万行左右。
SNP文件有50万行,应该怎么处理这样的情况呢?
如果用hash,则内存占用太大了,完全不能跑完。

1.jpg (97.08 KB, 下载次数: 17)

snp

snp

2.jpg (87.42 KB, 下载次数: 17)

baseinfo

baseinfo

3.jpg (46.38 KB, 下载次数: 18)

genytype

genytype
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP