免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: abcfy2
打印 上一主题 下一主题

[文本处理] sed打印行范围内匹配到某关键字的行,并给出行号? [复制链接]

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
11 [报告]
发表于 2014-01-21 09:55 |只看该作者
本帖最后由 jason680 于 2014-01-21 14:19 编辑

回复 1# abcfy2

>>比如一个文件有10000行,我只想先打开这个文件的1000-2000行,然后过滤出有关键字的行(忽略大小写),并且标记上行号

file: 10 lines
start = 2
end   = 8  (stop to read file)
pattern = pat1, pat2 (note: ignore case) and print with line number

$ awk 'BEGIN{s=2;e=8;IGNORECASE=1}s<=NR&&(/pat1/||/pat2/){print NR":"$0}NR>=e{exit}' FILE
4:4 pat1
6:6 pat2
8:8 PAT1

$ cat FILE
1 PAT1
2 xxxx
3 yyyy
4 pat1
5 xxxx
6 pat2
7 yyy
8 PAT1
9 xxxx
10 yyyy
   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
12 [报告]
发表于 2014-01-21 10:16 |只看该作者
回复 11# jason680

貌似你也没有注意到他有“合并”的需求:
sed '/^[0-9]\+$/{N; s/\n/\t/}'
   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
13 [报告]
发表于 2014-01-21 12:00 |只看该作者
回复 12# yestreenstars

I think there is no issue for this way.

Would you let's know the output result?
   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
14 [报告]
发表于 2014-01-21 12:07 |只看该作者
回复 13# jason680

我只是从他自己写的命令中得到这些信息,他没给出实际的文本和结果,我等岂能自造文本和结果呢?
   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
15 [报告]
发表于 2014-01-21 12:14 |只看该作者
本帖最后由 jason680 于 2014-01-21 15:02 编辑

回复 14# yestreenstars


>>我等岂能自造文本和结果呢?   

How to know my code have the issue?

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
16 [报告]
发表于 2014-01-21 12:21 |只看该作者
回复 15# jason680

我知道他为什么要加那句替换的sed了,好吧,我搞错了,我理解错了~
   

论坛徽章:
0
17 [报告]
发表于 2014-01-21 13:52 |只看该作者
jason680 发表于 2014-01-21 09:55
回复 1# abcfy2

>>比如一个文件有10000行,我只想先打开这个文件的1000-2000行 ...

对,这个就是我想要的结果,也能读懂。
不过如果文件很大的话,awk会不会很慢啊,我还是倾向于使用sed实现

论坛徽章:
0
18 [报告]
发表于 2014-01-21 13:54 |只看该作者
yestreenstars 发表于 2014-01-21 12:21
回复 15# jason680

我知道他为什么要加那句替换的sed了,好吧,我搞错了,我理解错了~

加那个sed只是因为=打印出的行号和过滤出含有关键字的行不在一行上。StackOverFlow上的老外也是这么处理=;p的

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
19 [报告]
发表于 2014-01-21 14:36 |只看该作者
回复 17# abcfy2

the "time" command will tell you the answer

seq -f "xxx %g" 1000 > FILE
seq -f "pat1 %g" 10 >> FILE
seq -f "xxx %g" 980 >> FILE
seq -f "pat2 %g" 10 >> FILE
seq -f "xxx %g" 8000 >> FILE
wc -l FILE

time awk 'BEGIN{s=1000;e=2000;IGNORECASE=1}s<=NR&&(/pat1/||/pat2/){print NR":"$0}NR>=e{exit}' FILE

time sed -n '1000,2000{=;p}' FILE | sed '/^[0-9]\+$/{N; s/\n/\t/}' | grep -iE 'pat1|pat2'

----------------------
and I try them by three times on ubuntu 12.04.3 LTS

$ time awk 'BEGIN{s=1000;e=2000;IGNORECASE=1}s<=NR&&(/pat1/||/pat2/){print NR":"$0}NR>=e{exit}' FILE
1001:pat1 1
...
2000:pat2 10

real        0m0.044s  <=== first
real        0m0.067s  <=== second
real        0m0.069s  <=== third


$ time sed -n '1000,2000{=;p}' FILE | sed '/^[0-9]\+$/{N; s/\n/\t/}' | grep -iE 'pat1|pat2'
1001        pat1 1
...
2000        pat2 10

real        0m0.167s  <=== first
real        0m0.131s  <=== second
real        0m0.100s  <=== third


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP