免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 42950 | 回复: 14
打印 上一主题 下一主题

[文本处理] 如何提取特定符号行中的关键字并输出随后几行 [复制链接]

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-07-25 11:46 |只看该作者 |倒序浏览
请教大家,例如有文件A是这样:

>H1_22 ASDSF AA BB 1111
ASDSJFKJKDJF
DSJFKDJFDJDFDFD
>F2_44_3 SDKS BB DF 2323
DFDSFDDGJFGLJFLDL
>SDS_22 DFD AA FDD 1111
FDSFDSFDGDG
FDFDSFDGFDGTHTYU
FDGRFHHHHHHHHHH
.......

如何将以>号开头的行中第3列为AA的行以及随后的几行提取出来?
生成这样:
>H1_22 ASDSF AA BB 1111
ASDSJFKJKDJF
DSJFKDJFDJDFDFD
>SDS_22 DFD AA FDD 1111
FDSFDSFDGDG
FDFDSFDGFDGTHTYU
FDGRFHHHHHHHHHH

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
2 [报告]
发表于 2016-07-25 11:58 |只看该作者
  1. awk '/>/{f=$3=="AA"?1:0}f'
复制代码

评分

参与人数 1信誉积分 +10 收起 理由
hjfeng1988 + 10

查看全部评分

论坛徽章:
2
2015年亚洲杯之沙特阿拉伯
日期:2015-03-27 17:28:472015年亚洲杯之韩国
日期:2015-03-27 22:34:22
3 [报告]
发表于 2016-07-25 12:02 |只看该作者
回复 2# elu_ligao


谢谢,请问?1:0如何理解?

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
4 [报告]
发表于 2016-07-25 12:12 |只看该作者
本帖最后由 moperyblue 于 2016-08-05 22:25 编辑
  1. awk -vRS='>' '$3=="AA"{printf RS $0}'
  2. awk '/^>/{f=$3=="AA"}f'
  3. grep -oPz '>(\S+\s+){2}AA [^>]*'|awk NF
  4. sed '/>/i \\'|sed -r '/^>(\S+\s+){2}AA\s/{:a;N;/\n$/!{$!ba};s/\n$//;p};d'
  5. sed -r ':b;/^>(\S+\s+){2}AA\s/{:a;N;/\n>/!{$q;ba};h;s/(.*)\n(.*)/\1/p;g;s//\2/;bb};d'
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
5 [报告]
发表于 2016-07-25 13:05 |只看该作者
  1. perl -ane 'if(/>/){print if($P=$F[2] eq "AA" ? 1 : 0);next}print if($P)' f
复制代码
>H1_22 ASDSF AA BB 1111
ASDSJFKJKDJF
DSJFKDJFDJDFDFD
>SDS_22 DFD AA FDD 1111
FDSFDSFDGDG
FDFDSFDGFDGTHTYU
FDGRFHHHHHHHHHH

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
6 [报告]
发表于 2016-07-25 13:53 |只看该作者

论坛徽章:
10
15-16赛季CBA联赛之同曦
日期:2016-06-11 19:22:4115-16赛季CBA联赛之深圳
日期:2020-05-31 16:13:5615-16赛季CBA联赛之同曦
日期:2020-01-28 12:42:47每日论坛发贴之星
日期:2016-08-09 06:20:00程序设计版块每日发帖之星
日期:2016-08-09 06:20:00每日论坛发贴之星
日期:2016-07-12 06:20:00程序设计版块每日发帖之星
日期:2016-07-12 06:20:00程序设计版块每日发帖之星
日期:2016-07-06 06:20:00程序设计版块每日发帖之星
日期:2016-07-04 06:20:0015-16赛季CBA联赛之佛山
日期:2021-02-26 09:33:41
7 [报告]
发表于 2016-07-25 14:13 |只看该作者
awk '/>/{if($3=="AA"){a=1}else{a=0}}a'
给你翻译一下那个三目运算- -
顺手摸一下5楼pp
=================================防摸pp隔离带=======================================

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
8 [报告]
发表于 2016-07-25 14:59 |只看该作者

求职 : 技术支持/维
论坛徽章:
0
9 [报告]
发表于 2016-07-25 15:07 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
10 [报告]
发表于 2016-07-25 15:58 |只看该作者
回复 4# moperyblue


    我想请问下,你的第三个代码,就是当匹配到/\n>/,然后保存到保存空间,然后这里的替换 s/(.*)\n(.*)/\1/  


>H1_22 ASDSF AA BB 1111
ASDSJFKJKDJF
DSJFKDJFDJDFDFD
>F2_44_3 SDKS BB DF 2323

替换成这个吗?
>H1_22 ASDSF AA BB 1111
ASDSJFKJKDJF
DSJFKDJFDJDFDFD   

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP