免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1949 | 回复: 4
打印 上一主题 下一主题

新手提问 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-08-05 14:14 |只看该作者 |倒序浏览
本帖最后由 最爱在深秋 于 2011-08-05 14:16 编辑

有两个文件

1.txt

CCG047372.1
CCG041592.1
CCG038341.2
CCG034905.1
CCG029888.1
CCG028745.1
CCG028144.1
CCG026722.1
CCG023765.1
CCG023764.1

2.xls

列一               列二   列三    列四     列五      列六    列七   列八         列九
C15543175       Cuff    mRNA    3       232     1000    +       .       ID=CCG000001.1;source_id=CUFF1.3153.1;
C15543175       Cuff    UTR_5   3       42      1000    +       .       Parent=CCG000001.1;support_id=CUFF1.3153.1;
C15543175       Cuff    CDS     43      228     1000    +       0       Parent=CCG000001.1;
C15543175       Cuff    UTR_3   229     232     1000    +       .       Parent=CCG000001.1;support_id=CUFF1.3153.1;
C15591027       Cuff    mRNA    1       247     1000    -       .       ID=CCG000002.1;source_id=CUFF1.4145.1;
C15591027       Cuff    UTR_5   177     247     1000    -       .       Parent=CCG000002.1;support_id=CUFF1.4145.1;
C15591027       Cuff    CDS     9       176     1000    -       0       Parent=CCG000002.1;
C15591027       Cuff    UTR_3   1       8       1000    -       .       Parent=CCG000002.1;support_id=CUFF1.4145.1;
C15619113       Cuff    mRNA    1       256     1000    +       .       ID=CCG000003.1;source_id=CUFF1.4807.1;
C15619113       Cuff    CDS     1       216     1000    +       0       Parent=CCG000003.1;
C15619113       Cuff    UTR_3   217     256     1000    +       .       Parent=CCG000003.1;support_id=CUFF1.4807.1;
C15639641       Cuff    mRNA    6       263     1000    -       .       ID=CCG000004.1;source_id=CUFF1.5315.1;
C15639641       Cuff    UTR_5   255     263     1000    -       .       Parent=CCG000004.1;support_id=CUFF1.5315.1;
C15639641       Cuff    CDS     6       254     1000    -       0       Parent=CCG000004.1;
C15659349       Cuff    mRNA    1       270     1000    +       .       ID=CCG000005.1;source_id=CUFF1.5781.1;
C15659349       Cuff    UTR_5   1       39      1000    +       .       Parent=CCG000005.1;support_id=CUFF1.5781.1;
C15659349       Cuff    CDS     40      189     1000    +       0       Parent=CCG000005.1;
C15659349       Cuff    UTR_3   190     270     1000    +       .       Parent=CCG000005.1;support_id=CUFF1.5781.1;
C15682137       Cuff    mRNA    1       275     1000    +       .       ID=CCG000006.1;source_id=CUFF1.6353.1;
C15682137       Cuff    UTR_5   1       7       1000    +       .       Parent=CCG000006.1;support_id=CUFF1.6353.1;
C15682137       Cuff    CDS     8       202     1000    +       0       Parent=CCG000006.1;
C15682137       Cuff    UTR_3   203     275     1000    +       .       Parent=CCG000006.1;support_id=CUFF1.6353.1;

文件1是基因ID
文件2是基因注释结果
如果文件1的ID和文件2列九的ID匹配并且列三是mRNA  的话,就输出列四、列五

输出格式为

基因ID 列四 列五

论坛徽章:
0
2 [报告]
发表于 2011-08-05 14:38 |只看该作者
回复 1# 最爱在深秋
  1. awk -F'[ =;]+' 'NR==FNR{a[$0];next}$3=="mRNA"&&$9=="ID"&&($10 in a){print $10,$4,$5}' 1.txt 2.xls
复制代码

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:55:28
3 [报告]
发表于 2011-08-05 14:46 |只看该作者
本帖最后由 xinglu1983 于 2011-08-05 14:58 编辑

awk 'NR==FNR{tmp[$1]++}$3=="mRNA"{for(i in tmp){if($9~"ID="i";")print i,$4,$5}}' 1.txt 2.xls

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
4 [报告]
发表于 2011-08-05 14:56 |只看该作者
本帖最后由 yinyuemi 于 2011-08-05 15:00 编辑
  1. awk 'NF==1{a[$1];next}{t=gensub(/.*ID=([^;]+);.*/,"\\1",1,$9);printf /mRNA/&&t in a?t FS $4 FS $5:""}' 1.TXT 2.TXT
复制代码

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
5 [报告]
发表于 2011-08-05 14:56 |只看该作者

  1. awk  -F "[ =;]+" '
  2. BEGIN{
  3.         while (getline <"1.txt")
  4.                 gene[$0]
  5. }
  6. {
  7.         if(($10 in gene) && $3=="mRNA")
  8.                 print $10, $4, $5
  9. }

  10.        
  11. ' 2.xls
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP