免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 酸奶盒
打印 上一主题 下一主题

【新手】怎么用perl写一个脚本比较两个基因文件里相同的语段再输出到新的文件里 [复制链接]

论坛徽章:
0
41 [报告]
发表于 2017-02-24 16:49 |只看该作者
回复 40# moperyblue

awk -F'[\t]' 'NR==FNR{a[$2$3$1]=1;next}a[$2$3$4]'  GaA_GbA.txt GbA_GaA.txt > C
你给的这个表达式我可以用的 谢谢啦
我刚才说的是另外一个回答的写的那个脚本。。
不过awk看起来好难= =不知道我要学多久

。。还有四个需要匹配。。厚颜拜托OwO

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
42 [报告]
发表于 2017-02-26 20:10 |只看该作者
回复 41# 酸奶盒


  1. ==> GbA_GbD <==
  2. gnl|AD2_NBI.cds|GbC30369598.1.0 AD2_NBI.cds:Gbscaffold19070.25.0        99.663  297     1       0       1       297     76      372     2.61e-154       544

  3. ==> GbD_GbA <==
  4. gnl|AD2_NBI.cds|GbC30374398.1.0 AD2_NBI.cds:Gbscaffold3437.17.0 99.822  562     1       0       1       562     1       562     0.0     1033
复制代码

这两个文件以tab分隔 是不是1和2列相同就算相同?

论坛徽章:
0
43 [报告]
发表于 2017-02-27 11:48 |只看该作者
回复 42# moperyblue

嗯,是的这两个文件是同一个物种 不同染色体组之间的相互比较

所有的相互比较的文件都是只要第一列与第二列相同就需要输出出来

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
44 [报告]
发表于 2017-02-27 11:57 |只看该作者
回复 43# 酸奶盒


  1. #GbD_GbA
  2. awk 'NR==FNR{a[$1$2]=1;next}a[$1$2]' GbA_GbD GbD_GbA > GbD_GbA_C

  3. #GhA_GaA
  4. awk 'NR==FNR{a[$1$2]=1;next}a[$2$1]'  GaA_GhA GhA_GaA > GhA_GaA_C

  5. #GhD_GhA
  6. awk 'NR==FNR{a[$1$2]=1;next}a[$2$1]' GhA_GhD GhD_GhA > GhD_GhA_C

  7. #GhD_GrD
  8. awk 'NR==FNR{a[$1$2]=1;next}a[$2$1]' GhD_GrD GrD_GhD > GhD_GrD_C
复制代码

论坛徽章:
0
45 [报告]
发表于 2017-02-27 12:16 |只看该作者
回复 44# moperyblue

第一个没有输出出来orz刚才我话好像有点误解
我的意思是这两个文件也是需要GbA_GbD第一列等于GbD_GbA第二列同时GbA_GbD的第二列等于GbD_GbA的第一列才输出

剩下的都可以有

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
46 [报告]
发表于 2017-02-27 12:50 |只看该作者
回复 45# 酸奶盒


从你提供的数据 文件GbA_GbD 与 文件GbD_GbA 它们第一和第二列的数据格式是一样的 你再仔细看一下 是不是

论坛徽章:
0
47 [报告]
发表于 2017-02-27 13:14 |只看该作者
回复 46# moperyblue

抱歉。。。QAQ是我没有仔细看。。。。啊啊啊orz

论坛徽章:
0
48 [报告]
发表于 2017-02-27 13:23 |只看该作者
回复 46# moperyblue
它们的数据格式是一样的。。但是代表的基因是不一样的,是对的、
因为他们是从同一个数据库里分开的,所以格式是一样的。。。

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
49 [报告]
发表于 2017-02-27 14:16 |只看该作者
回复 48# 酸奶盒


按这个格式 GbA_GbD、GbD_GbA这两个文件没有找到“交集”的数据  正常吗?

论坛徽章:
0
50 [报告]
发表于 2017-02-27 18:47 |只看该作者
回复 49# moperyblue

抱歉,你的意思是说这两个文件是数据是一样的?O O
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP