忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT 视频 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
楼主: 酸奶盒

【新手】怎么用perl写一个脚本比较两个基因文件里相同的语段再输出到新的文件里 [复制链接]

论坛徽章:
0
发表于 2017-02-24 16:49 |显示全部楼层
回复 40# moperyblue

awk -F'[\t]' 'NR==FNR{a[$2$3$1]=1;next}a[$2$3$4]'  GaA_GbA.txt GbA_GaA.txt > C
你给的这个表达式我可以用的 谢谢啦
我刚才说的是另外一个回答的写的那个脚本。。
不过awk看起来好难= =不知道我要学多久

。。还有四个需要匹配。。厚颜拜托OwO

论坛徽章:
26
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之青岛
日期:2016-11-26 17:00:4615-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:54
发表于 2017-02-26 20:10 |显示全部楼层
回复 41# 酸奶盒


  1. ==> GbA_GbD <==
  2. gnl|AD2_NBI.cds|GbC30369598.1.0 AD2_NBI.cds:Gbscaffold19070.25.0        99.663  297     1       0       1       297     76      372     2.61e-154       544

  3. ==> GbD_GbA <==
  4. gnl|AD2_NBI.cds|GbC30374398.1.0 AD2_NBI.cds:Gbscaffold3437.17.0 99.822  562     1       0       1       562     1       562     0.0     1033
复制代码

这两个文件以tab分隔 是不是1和2列相同就算相同?

论坛徽章:
0
发表于 2017-02-27 11:48 |显示全部楼层
回复 42# moperyblue

嗯,是的这两个文件是同一个物种 不同染色体组之间的相互比较

所有的相互比较的文件都是只要第一列与第二列相同就需要输出出来

论坛徽章:
26
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之青岛
日期:2016-11-26 17:00:4615-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:54
发表于 2017-02-27 11:57 |显示全部楼层
回复 43# 酸奶盒


  1. #GbD_GbA
  2. awk 'NR==FNR{a[$1$2]=1;next}a[$1$2]' GbA_GbD GbD_GbA > GbD_GbA_C

  3. #GhA_GaA
  4. awk 'NR==FNR{a[$1$2]=1;next}a[$2$1]'  GaA_GhA GhA_GaA > GhA_GaA_C

  5. #GhD_GhA
  6. awk 'NR==FNR{a[$1$2]=1;next}a[$2$1]' GhA_GhD GhD_GhA > GhD_GhA_C

  7. #GhD_GrD
  8. awk 'NR==FNR{a[$1$2]=1;next}a[$2$1]' GhD_GrD GrD_GhD > GhD_GrD_C
复制代码

论坛徽章:
0
发表于 2017-02-27 12:16 |显示全部楼层
回复 44# moperyblue

第一个没有输出出来orz刚才我话好像有点误解
我的意思是这两个文件也是需要GbA_GbD第一列等于GbD_GbA第二列同时GbA_GbD的第二列等于GbD_GbA的第一列才输出

剩下的都可以有

论坛徽章:
26
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之青岛
日期:2016-11-26 17:00:4615-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:54
发表于 2017-02-27 12:50 |显示全部楼层
回复 45# 酸奶盒


从你提供的数据 文件GbA_GbD 与 文件GbD_GbA 它们第一和第二列的数据格式是一样的 你再仔细看一下 是不是

论坛徽章:
0
发表于 2017-02-27 13:14 |显示全部楼层
回复 46# moperyblue

抱歉。。。QAQ是我没有仔细看。。。。啊啊啊orz

论坛徽章:
0
发表于 2017-02-27 13:23 |显示全部楼层
回复 46# moperyblue
它们的数据格式是一样的。。但是代表的基因是不一样的,是对的、
因为他们是从同一个数据库里分开的,所以格式是一样的。。。

论坛徽章:
26
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之青岛
日期:2016-11-26 17:00:4615-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:54
发表于 2017-02-27 14:16 |显示全部楼层
回复 48# 酸奶盒


按这个格式 GbA_GbD、GbD_GbA这两个文件没有找到“交集”的数据  正常吗?

论坛徽章:
0
发表于 2017-02-27 18:47 |显示全部楼层
回复 49# moperyblue

抱歉,你的意思是说这两个文件是数据是一样的?O O
您需要登录后才可以回帖 登录 | 注册

本版积分规则

久等啦!10张门票开启你的DTCC2017之旅

2017中国数据库技术大会将于2017年5月11-13日如约而至,本届大会以“数据驱动•价值发现”为主题,共设定2大主场和21个技术专场,云集海内外120+位技术大牛,共同探讨Oracle、MySQL、NoSQL、云端数据库、区块链、深度学习等领域的前瞻性热点话题。
即日起,填写DTCC2017会前调查问卷,即有机会赢取价值2600元的大会门票1张!仅限10张!
----------------------------------------
活动截止时间:2017年5月5日统一公布

问卷入口>>
  

北京皓辰网域网络信息技术有限公司. 版权所有 京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP