免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 613 | 回复: 0

[文本处理] 请问如何用perl 提取第一列出现指定次数的关键字 [复制链接]

论坛徽章:
0
发表于 2019-11-18 17:57 |显示全部楼层
非常抱歉,来这边提问了perl的问题,主要在那边没有人回答,谢谢大神们了。
我有这样的一个文件:
Query_id        Query_length        Query_start        Query_end        Subject_id        Subject_length        Subject_start        Subject_end        Identity(%)        Align_length        Mismatch        Gap        Score        E_value        Subject_annotation
VVC24062        372        6        372        XP_001951491.1        401        4        370        95.6        367        16        0        700.3        2.2e-199        XP_001951491.1 PREDICTED: eukaryotic initiation factor 4A-III [Acyrthosiphon pisum]
VVC24062        372        6        372        XP_022164948.1        401        4        370        95.4        367        17        0        699.1        4.9e-199        XP_022164948.1 eukaryotic initiation factor 4A-III [Myzus persicae]
VVC24062        372        6        372        XP_015781253.1        405        8        374        87.2        367        47        0        660.6        1.9e-187        XP_015781253.1 eukaryotic initiation factor 4A-III [Tetranychus urticae]
VVC24062        372        13        372        XP_018917276.1        398        8        367        88.9        360        40        0        659.4        4.3e-187        XP_018917276.1 PREDICTED: eukaryotic initiation factor 4A-III [Bemisia tabaci]
VVC24062        372        13        372        XP_013776925.1        403        13        372        88.9        360        40        0        658.7        7.3e-187        XP_013776925.1 eukaryotic initiation factor 4A-III [Limulus polyphemus]
VVC24062        372        13        372        XP_021917996.1        403        13        372        88.3        360        42        0        657.9        1.2e-186        XP_021917996.1 eukaryotic initiation factor 4A-III [Zootermopsis nevadensis]
VVC24063        355        6        355        XP_001951491.1        401        4        353        95.4        350        16        0        666.0        4.3e-189        XP_001951491.1 PREDICTED: eukaryotic initiation factor 4A-III [Acyrthosiphon pisum]
VVC24063        355        6        355        XP_022164948.1        401        4        353        95.1        350        17        0        664.8        9.7e-189        XP_022164948.1 eukaryotic initiation factor 4A-III [Myzus persicae]
VVC24063        355        6        355        XP_015781253.1        405        8        357        86.6        350        47        0        626.3        3.8e-177        XP_015781253.1 eukaryotic initiation factor 4A-III [Tetranychus urticae]
VVC24063        355        13        355        XP_018917276.1        398        8        350        88.3        343        40        0        625.5        6.5e-177        XP_018917276.1 PREDICTED: eukaryotic initiation factor 4A-III [Bemisia tabaci]
VVC24063        355        1        355        XP_023328235.1        374        1        355        85.9        355        50        0        625.5        6.5e-177        XP_023328235.1 eukaryotic initiation factor 4A-III [Eurytemora affinis]
VVC24063        355        13        355        XP_013776925.1        403        13        355        88.3        343        40        0        624.8        1.1e-176        XP_013776925.1 eukaryotic initiation factor 4A-III [Limulus polyphemus]
VVC24064        196        1        184        XP_008178315.1        1308        1        200        48.3        205        80        26        165.2        1.3e-38        XP_008178315.1 PREDICTED: uncharacterized protein K02A2.6-like [Acyrthosiphon pisum]
VVC24064        196        1        189        XP_008188102.1        1220        1        208        46.2        210        90        23        158.7        1.2e-36        XP_008188102.1 PREDICTED: uncharacterized protein K02A2.6-like [Acyrthosiphon pisum]
VVC24064        196        3        196        XP_008182441.1        1334        24        217        46.2        197        100        6        146.0        8.3e-33        XP_008182441.1 PREDICTED: uncharacterized protein K02A2.6-like [Acyrthosiphon pisum]
VVC24064        196        3        196        XP_022162181.1        612        24        217        45.2        197        102        6        143.7        4.1e-32        XP_022162181.1 uncharacterized protein K02A2.6-like [Myzus persicae]
VVC24064        196        2        190        XP_008484647.2        449        23        208        39.7        189        111        3        115.9        9.2e-24        XP_008484647.2 PREDICTED: uncharacterized protein LOC103521316 [Diaphorina citri]
VVC24064        196        3        157        XP_022166224.1        1195        23        176        41.9        155        89        1        111.3        2.3e-22        XP_022166224.1 uncharacterized protein K02A2.6-like, partial [Myzus persicae]
VVC24064        196        2        156        XP_017304412.1        359        11        165        38.1        155        96        0        108.2        1.9e-21        XP_017304412.1 PREDICTED: uncharacterized protein LOC103521973 [Diaphorina citri]

对于第一列的信息,我想根据每行最后的[] 里面的关键词来计算出现次数,譬如


VVC24064它对应出现次数为3,因为后面中括号里的名字一样只能算VVC24064出现一次。
VVC24064        [Acyrthosiphon pisum]
VVC24064        [Myzus persicae]
VVC24064        [Diaphorina citri]

我想把第一列的每个出现的词按照这样统计出来行数,最后只输出出现次数小于等于5的id,请问如何实现,谢谢了!

file.rar

990 Bytes, 下载次数: 12

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

ITPUB技术栈

ITPUB技术栈:http://z.itpub.net/
ITPUB技术栈是由ITPUB社区打造的垂直于IT领域的知识交流平台,在这里,你既可以是创作者也可以是消费者。如果你的IT生涯丰富多彩,喷薄的个人价值尽可在小栈内体现;如果你渴望找到志同道合的伙伴,拓宽人脉,小栈会是你最好的选择。





点击进入>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP