免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Shell › 比较上下行

12 / 2 页

最近访问板块

发新帖

楼主: iamline

上一主题

下一主题

[文本处理] 比较上下行 [复制链接]

论坛徽章:: 0

11楼 [报告]

发表于 2013-08-27 15:11 |只看该作者

本帖最后由 iamline 于 2013-08-27 15:13 编辑

回复 10# reyleon

很感谢您，我测试了大文件后，发现需要改的地方会比较多，现在有另外的情况，想要实现下面的要求：

如果以$1、$4和$9作为key来比较上下行的exon、cds，如果前后几行内有key相同的exon、cds（这几行可能不相邻，但相近），则exon对应的$7不需要改变，如果没有的话需要令exon的$7="+"，该如何实现呢？

例如下面的情况：

C1 T10  exon 3867739 3868443 .    -    .    gene_id "AT1G11482.1";
C1 T10  exon 3868592 3868649 .    -    .    gene_id "AT1G11482.1";
C1 T10  exon 3868799 3868870 .    -    .    gene_id "AT1G11482.1";
C1 T10  exon 3868884 3869527 .    -    .    gene_id "AT1G11490.1";
C1 T10  exon 3869612 3870065 .    -    .    gene_id "AT1G11490.1";
C1 T10  CDS    3868884 3869527 .    -    2    gene_id "AT1G11490.1";
C1 T10  CDS    3869612 3870065 .    -    0    gene_id "AT1G11490.1";

前3行需要修改，中间2行的exon对应的$7则不需要改动

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 60

20周年集字徽章-20
日期:2020-10-28 14:04:30

15-16赛季CBA联赛之北京
日期:2016-07-06 15:42:07

15-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:09

15-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56

黄金圣斗士
日期:2015-12-02 11:44:35

白银圣斗士
日期:2015-11-25 14:32:43

白银圣斗士
日期:2015-11-23 12:53:35

2015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:48

2015亚冠之首尔
日期:2015-09-01 16:46:05

2015亚冠之德黑兰石油
日期:2015-08-31 11:39:19

2015亚冠之萨济拖拉机
日期:2015-08-28 21:06:53

15-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53

12楼 [报告]

发表于 2013-08-27 15:37 |只看该作者

本帖最后由 reyleon 于 2013-08-27 15:45 编辑

回复 12# iamline

针对这种情况（注：是10列，并不是9列）：

C1 T10 exon 3867739 3868443 . - . gene_id "AT1G11482.1";
C1 T10 exon 3868592 3868649 . - . gene_id "AT1G11482.1";
C1 T10 exon 3868799 3868870 . - . gene_id "AT1G11482.1";
C1 T10 exon 3868884 3869527 . - . gene_id "AT1G11490.1";
C1 T10 exon 3869612 3870065 . - . gene_id "AT1G11490.1";
C1 T10 CDS 3868884 3869527 . - 2 gene_id "AT1G11490.1";
C1 T10 CDS 3869612 3870065 . - 0 gene_id "AT1G11490.1";

复制代码

也就是说，$1,$4,$5,$10 如果有重复的就不修改是吗？！如果是的话，也是大同小异的命令：

awk 'BEGIN{OFS="\t"}NR==FNR{a[$1,$4,$5,$10]++;next}NF+=0{if(a[$1,$4,$5,$10]==1&&$3=="exon")$7="+"}1' file file

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

13楼 [报告]

发表于 2013-08-27 16:06 |只看该作者

reyleon 发表于 2013-08-27 15:37
回复 12# iamline

针对这种情况（注：是10列，并不是9列）：也就是说，$1,$4,$5,$10 如果有重复的就不修 ...

您好！这里其实是寻找与exon 的key相同的CDS，如果找到就不修改，若没有则修改exon的$7

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

天蝎座
日期:2013-08-22 15:14:44

14楼 [报告]

发表于 2013-08-27 17:47 |只看该作者

回复 14# iamline

try this one:

awk 'FNR==NR{a[$3" "$4" "$5" "$10]++;next}$3=="exon"&&a[$3" "$4" "$5" "$10]==1&&(!a["CDS "$4" "$5" "$10]){sub(/-/,"+")}1' urfile urfile

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

15楼 [报告]

发表于 2013-08-28 10:19 |只看该作者

guogang225 发表于 2013-08-27 17:47
回复 14# iamline

try this one:

很感谢您的帮忙！！谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

发新帖

Chinaunix › 论坛 › 程序设计 › Shell › 比较上下行

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP