- 论坛徽章:
- 0
|
现在有记录SNP信息的文件,第一列表示染色体,第二列表示在染色体上的位点,第三列表示参考基因组上的碱基,第四列表示该样本的碱基。
这样的文件有三个,表示三个样本。现在需要根据这三个文件,生成genotype文件,第一列表示染色体,第二列表示位点,第三列表示参考基因组上的碱基,后面每列表示一个样本在该位点的碱基。
现在的问题主要是,比如在A样本中,1号染色体第250个位点上有一个SNP,在另外两个样本的SNP文件中,没有记录该位点,现在需要确认是因为该位点与参考基因组相同,还是测序的时候没有测到这个位点,就需要到该样本的baseinfo文件中找到对应的位点,然后看第14列是否为0,如果小于3(很多为0的表示没测到),表示没测到这个点或者结果不可靠,那么在genotype中以“--”表示,如果大于3,则表示结果可靠,测到了该位点,则以实际的碱基记录下来。
现在每个样本的baseinfo文件大约有5G,5000万行左右。
SNP文件有50万行,应该怎么处理这样的情况呢?
如果用hash,则内存占用太大了,完全不能跑完。 |
-
1.jpg
(97.08 KB, 下载次数: 17)
snp
-
2.jpg
(87.42 KB, 下载次数: 17)
baseinfo
-
3.jpg
(46.38 KB, 下载次数: 18)
genytype
|