免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345下一页
最近访问板块 发新帖
查看: 7177 | 回复: 41
打印 上一主题 下一主题

[文本处理] 求助: sed取匹配行前面的第3行,然后结束匹配 [复制链接]

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-12 11:48 |只看该作者 |倒序浏览
本帖最后由 rm-rf 于 2015-07-13 19:52 编辑

感谢各位大大的建议,离成功只有一步之遥了。

我今天在生产环境跑了一下,发现问题了,现在把帖子编辑一下。

有些文件并不是两列的格式,也就说列数是不固定的,不过匹配标准仍然不变:

找到第1次匹配的以begin开头的行,然后打印出匹配行前面的第3行的第2列,然后结束匹配,剩下的begin不再过滤。

$ cat 1.txt

a 1
v 56 999 4567
df8 2 kkk lll kkk
j5i 65 j
begin 456 ggh
75 df
ghi -5
74 op
begin dfg
cv
ffff

要求:采用最优化方案,找到第1次匹配的以begin开头的行,然后打印出匹配行前面的第3行的第2列,然后结束匹配,剩下的begin不再过滤。
注意每1行列数是不固定的,比如以上1.txt,第1次匹配begin的是begin 456 ggh,其前面第3行为v 56 999 4567,结果打印的是56

小弟先谢各位了。

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-07-12 12:51 |只看该作者
回复 1# rm-rf
  1. $ awk '{a[NR]=$2}/^begin/{print a[NR-3];exit}' 1.txt
  2. 56
复制代码

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
3 [报告]
发表于 2015-07-12 13:06 |只看该作者
回复 2# haooooaaa

非常感谢,如果必须用sed,能实现么?
   

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
4 [报告]
发表于 2015-07-12 14:07 |只看该作者
回复 3# rm-rf


    sed 应该也可以, 只是没这么方便, 个人感觉, sed我不太熟悉.

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
5 [报告]
发表于 2015-07-12 14:40 来自手机 |只看该作者
主要是因为文件超大,并且有大量文件需要查找,用awk数组我担心性能问题,我再研究下,谢谢。

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
6 [报告]
发表于 2015-07-12 14:55 |只看该作者
本帖最后由 haooooaaa 于 2015-07-12 15:03 编辑

回复 5# rm-rf


    来个性能够的.
  1. $ awk '/^begin/{print a;exit}NR%3==1{a=b;b=c;c=$2}NR%3==2{a=b;b=c;c=$2}NR%3==0{a=b;b=c;c=$2}'  1.txt
  2. 56
复制代码
用8楼 大神的, 我这个太...

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
7 [报告]
发表于 2015-07-12 14:56 |只看该作者
tac file|awk '/begin/{a=NR}NR==a+3{b=$2}END{print b}'
56

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2015-07-12 14:56 |只看该作者
回复 5# rm-rf

keep the last 3 lines data only

$ awk -vN=3 '/begin/{print a[N];exit}{for(n=N;n>1;n--)a[n]=a[n-1];a[1]=$2}' 1.txt
56

   

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
9 [报告]
发表于 2015-07-12 15:26 |只看该作者
本帖最后由 WilliBhamlll 于 2015-07-12 15:31 编辑
  1. $ sed -nr '/begin/{x;s/.* (.*)(.*\n){2}.*/\1/p;Q};H' file
复制代码

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
10 [报告]
发表于 2015-07-12 15:42 |只看该作者
回复 9# WilliBhamlll
大神你好,我也想过类似的方法,没有匹配begin时追加到保持空间,
当第一次匹配begin时,保持空间的内容交换到模式空间,交换后模式空间的内容应该为如下
a 1
v 56
df8 2
j5i 65

s/.* (.*)(.*\n){2}.*/    为啥能取到56,没看懂。


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP