免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: rm-rf
打印 上一主题 下一主题

[文本处理] 求助: sed取匹配行前面的第3行,然后结束匹配 [复制链接]

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
31 [报告]
发表于 2015-07-14 09:42 |只看该作者
回复 13# hjfeng1988

貌似看懂了并且能画瓢了,谢谢。


   

论坛徽章:
3
水瓶座
日期:2014-03-25 17:08:042015亚冠之塔什干棉农
日期:2015-08-10 10:45:122015亚冠之萨济拖拉机
日期:2015-08-13 16:05:24
32 [报告]
发表于 2015-07-14 11:49 |只看该作者
回复 21# hjfeng1988


    抱歉,没看清题意。把NR==3改成NR==2就好

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
33 [报告]
发表于 2015-07-14 14:20 |只看该作者
回复 29# hjfeng1988

刚刚搞明白,又来问题了,再请教:

现在我已经能打印倒数第3行的任意列了,现在的问题是,如果整个文件根本没有begin开头的行,那么这个脚本会打印乱七八糟的东西,请问这个能解决么?
感谢!


   

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
34 [报告]
发表于 2015-07-14 14:47 |只看该作者
回复 33# rm-rf


    sed -r '1{N;N};N;/\nbegin/{s/^[^ ]* ([^ \n]+).*/\1/;q};$d;D' file

评分

参与人数 1信誉积分 +50 收起 理由
rm-rf + 50 很给力!

查看全部评分

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
35 [报告]
发表于 2015-07-14 15:45 |只看该作者
本帖最后由 jason680 于 2015-07-14 15:49 编辑

简明 易懂 没问题

How about this way
simple, easy to know and no issue

$ awk -vt=2 -vb=3 '/^begin/{print a[NR%b];exit}{a[NR%b]=$t}' 1.txt
56

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
36 [报告]
发表于 2015-07-14 16:06 |只看该作者
回复 35# jason680

感谢指点,脚本没问题,但我比较担心awk用数组拖慢了速度,文件很多也很大。


   

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
37 [报告]
发表于 2015-07-14 16:30 |只看该作者
回复 36# rm-rf


    看24楼,grep才是最快,awk最好调整,sed比awk快,但调整难度最大。

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
38 [报告]
发表于 2015-07-14 17:39 |只看该作者
回复 37# hjfeng1988

感谢指点,我找一些大文件测试一下。

   

论坛徽章:
2
技术图书徽章
日期:2013-12-17 13:52:152015亚冠之萨济拖拉机
日期:2015-07-19 11:07:52
39 [报告]
发表于 2015-07-15 08:56 |只看该作者
测试结果出来了:

将帖子中的1.txt改一下放在一个真实的文件(2G)尾部,测试结果如下:
  1. $ time grep -m1 -B3 '^mbegin' file | awk '{print $2;exit}'
  2. 56

  3. real    0m5.028s
  4. user    0m4.134s
  5. sys     0m0.841s

  6. $ time sed -r '1{N;N};N;/\nmbegin/{s/^[^ ]* ([^ \n]+).*/\1/;q};$d;D' file
  7. 56

  8. real    0m50.435s
  9. user    0m48.531s
  10. sys     0m1.216s

  11. $ time awk '/^mbegin/{print a[NR%3];exit}{a[NR%3]=$2}' file
  12. 56

  13. real    0m29.488s
  14. user    0m28.080s
  15. sys     0m0.873s
复制代码
看来在大文件情况下,grep速度最快,awk其次,sed最慢。
感谢楼上各位的支持。

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
40 [报告]
发表于 2015-07-15 11:20 |只看该作者
回复 39# rm-rf


export LANG=C

然后再测试下看看
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP