免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6113 | 回复: 9
打印 上一主题 下一主题

[文本处理] awk匹配到指定范围的数字并输出匹配行后几行的字符串 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-10-23 14:26 |只看该作者 |倒序浏览
        <Ss ssId="4479934" handle="MMP" batchId="6660" locSnpId="S106M1" subSnpClass="snp" orient="forward" strand="bottom" molType="genomic" buildId="111" methodClass="other" validated="by-cluster" linkoutUrl="www.maizemap.orgS106M1">
            <Sequence>
                <Seq5>CCCGAACCAAGCCCTCTCCCACTGATACCACCTTCCTTC</Seq5>
                <Observed>G/T</Observed>
                <Seq3>TTGTACCCGGATTATTTCGTGTAAAGTTGTACCCGGATTATTTCGTGTAAAGATCACATGTGATCCTAAGAATTAAAACGTGAGTCG</Seq3>
            </Sequence>
--
        <Ss ssId="4479935" handle="MMP" batchId="6660" locSnpId="S107M18" subSnpClass="snp" orient="forward" strand="top" molType="genomic" buildId="111" methodClass="other" validated="by-submitter" linkoutUrl="www.maizemap.orgS107M18">
            <Sequence>
                <Seq5>GAAGGACAAATCAAAATGGTTACACATCAACCGTCCCATTTCATTGTTAAATCAACCGTCCCATTTCATTGTTAA</Seq5>
                <Observed>A/G</Observed>
                <Seq3>ATATTTGCTAAAGAACGATGCACAGTTATCAATTACTGAATTACCCGCCA</Seq3>
            </Sequence>
--
        <Ss ssId="4479936" handle="MMP" batchId="6660" locSnpId="S112M20" subSnpClass="snp" orient="forward" strand="top" molType="genomic" buildId="111" methodClass="other" validated="by-cluster" linkoutUrl="www.maizemap.orgS112M20">
            <Sequence>
                <Seq5>GCCATCTGGACCAGTTTCCAATCTGCAGTCATTTTATTTCATATAAATTCTCCAATCTGCAGTCATTTTATTTCATATAAATTC</Seq5>
                <Observed>A/G</Observed>
                <Seq3>TTGTTTGGGGTGAGGTGTAATAGCAAGACCCAACTGTATTTGTATCTAAT</Seq3>
            </Sequence>
--
        <Ss ssId="4479938" handle="MMP" batchId="6660" locSnpId="S17M22" subSnpClass="snp" orient="forward" strand="top" molType="genomic" buildId="111" methodClass="other" validated="by-cluster" linkoutUrl="www.maizemap.orgS17M22">
            <Sequence>
                <Seq5>GGGAGGTGAAGGCCCT</Seq5>
                <Observed>C/G</Observed>
                <Seq3>CTGCTGGAGGCGCTCTGCTGGAGGCGCTGGTGTCCGAGGATCCCCCTGTGGTCCAGGCGGAGCGGTTTGAGCAGGCCAACGAGTCCTGCGTTTGATCT</Seq3>
            </Sequence>
--


现在想匹配到<Ss ssId="后面的数字,并且设定该数字需在4479934和4479938之间,输出Ss ssId=4479935以及下面<Seq5><Observed><Seq3>中的序列。
也就是输出结果为:
Ss ssId=4479935 GAAGGACAAATCAAAATGGTTACACATCAACCGTCCCATTTCATTGTTAAATCAACCGTCCCATTTCATTGTTAAA/GATATTTGCTAAAGAACGATGCACAGTTATCAATTACTGAATTACCCGCCA
Ss ssId=4479936 GCCATCTGGACCAGTTTCCAATCTGCAGTCATTTTATTTCATATAAATTCTCCAATCTGCAGTCATTTTATTTCATATAAATTCA/GTTGTTTGGGGTGAGGTGTAATAGCAAGACCCAACTGTATTTGTATCTAAT

求大神们指教!

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
2 [报告]
发表于 2014-10-23 15:01 |只看该作者
回复 1# 120215
  1. awk -F'["<> ]+' '/ssId=/{if(4479934<$4&&$4<4479938){print $2,$3$4;for(i=4;i++<NF;){if($i=="Seq5")printf $(i+1);if($i=="Observed")printf $(i+1);if($i=="Seq3")printf $(i+1)}print ""}}' RS="--" urfile
复制代码
几个if堆了一下, 想不到啥简单办法

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2014-10-23 15:03 |只看该作者
回复 1# 120215


try:
  1. awk -F '[><]' -v RS=-- '{split($2,a,/"/);if(a[2]>4479934&&a[2]<4479938){print a[1]a[2];print $7$11$15}}' file
复制代码

论坛徽章:
0
4 [报告]
发表于 2014-10-23 15:09 |只看该作者
实现了 谢谢答复 回复 2# Buring__


   

论坛徽章:
0
5 [报告]
发表于 2014-10-23 15:09 |只看该作者
实现了 谢谢答复 回复 3# ly5066113


   

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
6 [报告]
发表于 2014-10-23 15:11 |只看该作者
  1. awk -F'["<> ]+' '{if(4479934<$4&&$4<4479938){print $2,$3$4"\n"$31$35$39}}' RS="--" urfile
复制代码
用for循环找到所在域,让后可以改成这样子,

论坛徽章:
0
7 [报告]
发表于 2014-10-23 15:28 |只看该作者
cat test7 |awk 'BEGIN{FS="[><\"]";RS="--"} $3>=4479934&&$3<=4479938{print $3,$31$35$39}'

论坛徽章:
0
8 [报告]
发表于 2014-10-23 15:54 |只看该作者
恩 这样简短了 学习了 谢谢哈 还数了那么多字段 都到30多了回复 6# Buring__


   

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
9 [报告]
发表于 2014-10-23 16:13 |只看该作者
回复 8# 120215


    拆了2包烟, 在哪儿摆着数

论坛徽章:
0
10 [报告]
发表于 2014-10-23 16:27 |只看该作者
哈哈 太搞笑了 回复 9# Buring__


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP