免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 22563 | 回复: 20
打印 上一主题 下一主题

[文本处理] 如何用awk从日志文件中找到时间范围的数据 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-27 17:48 |只看该作者 |倒序浏览
本帖最后由 fortunegzhou 于 2013-08-28 14:34 编辑

日志格式如下
2013/08/16    01:10:11.111    E12345678900-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:11:22.222    E12345678900-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:12:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:13:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:14:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:15:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:16:11.111    E12345678900-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:17:22.222    E12345678900-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:18:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:19:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:20:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:21:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:22:11.111    E12345678900-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:25:22.222    E12345678900-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:30:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:32:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:36:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0
2013/08/16    01:40:33.046    E68C93001100-0    6513    123    0    IN    OK()    0    0    0    0    0    0

请问:如何用awk找到时间范围是2013/08/16    01:15:00.000  到 2013/08/16    01:30:00.000 之间的日志数据

另:日志文件很大,5G以上,用什么方式查会快??


----------------------------------------2013/08/28(上午)更新-------------------------------------------------------

感谢大家的帮助,现报告各种写法的速度情况:
测试文件:2G, 返回的结果集在文件的末尾,大概15条

awk '{t=$1$2; if(t>="2013/08/2001:15:00.000" && t<"2013/08/2001:20:00.000" print}' $filename
awk '$1$2 >= "2013/08/2001:15:00.000"  && $1$2 <= "2013/08/2001:20:00.000"' $filename
awk -vs="2013/08/20 01:15:00.000" -ve="2013/08/20 01:20:00.000" '{t=$1" "$2}s<=t&&t<=e' $filename
awk 'BEGIN{s="2013/08/20 01:15:00.000";e="2013/08/20 01:20:00.000"}{t=$1" "$2}s<=t&&t<=e' $filename
这三种写法,执行速度最快,时间都在25s或26s

awk 'BEGIN{start=mktime("2013 08 20 01 15 00";end=mktime("2013 08 20 01 20 00"}{split($1" "$2,a,"[/|.| ]";now=mktime(a[1]" "a[2]" "a[3]" "a[4]" "a[5]" "a[6]);if(now>=start&&(now<end||(now==end&&a[7]==0))) print $0}' $filename
这种写法,速度很慢,至少5分钟没出结果,估计是mktime命令执行相当慢, 此种写法没问题,我测试过小文件,能返回正确结果

用perl脚本也比较慢,都超过200s
perl -lane 'BEGIN{$s="2013/08/20 01:15:00.000";$e="2013/08/20 01:20:00.000"}{$t="$F[0] $F[1]";if($s lt $t && $t lt $e){print}}' $filename
用时244s

perl -lane 'print if "2013/08/20 01:15:00.000" lt "@F[0..1]" and "@F[0..1]" lt "2013/08/20 01:20:00.000"' $filename
用时259s

”seesea2517“的方案:没出正确的结果,估计是\t分隔符所致,我的日志文件可能不是\t分隔的,但是不管怎样,命令执行完需耗时分别如下:
cat $filename | sed -n '/2013\/08\/20\t01:15/, /2013\/08\/20\t01:20/ p'                                              28s
cat $filename | sed -n '/2013\/08\/20\t01:15/, /2013\/08\/20\t01:20/ p; /2013\/08\/20\t01:20/q;'        46s


----------------------------------------2013/08/28(下午)更新-------------------------------------------------------
根据cao627的提议,我试了2楼Shell_HAT的grep方式,发现速度更快,只用了2s
grep -E "2013/08/20\s*01:1[5-9]" ./2G.log

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2013-08-27 17:55 |只看该作者
  1. grep -E "2013/08/16    01:1[5-9]|2013/08/16    01:2[0-9]" a.log
复制代码

论坛徽章:
0
3 [报告]
发表于 2013-08-27 18:01 |只看该作者
回复 2# Shell_HAT


    awk如何实现?

论坛徽章:
1
天蝎座
日期:2013-08-22 15:14:44
4 [报告]
发表于 2013-08-27 18:05 |只看该作者
本帖最后由 guogang225 于 2013-08-27 18:14 编辑
  1. awk 'BEGIN{start=mktime("2013 08 16 01 15 00");end=mktime("2013 08 16 01 30 00")}{split($1" "$2,a,"[/|:|.| ]");now=mktime(a[1]" "a[2]" "a[3]" "a[4]" "a[5]" "a[6]);if(now>=start&&(now<end||(now==end&&a[7]==0))) print $0}' urfile
复制代码
回复 1# fortunegzhou


   

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
5 [报告]
发表于 2013-08-27 18:11 |只看该作者
回复 1# fortunegzhou
  1. awk '$1$2 >= "2013/08/1601:15:00.000"  && $1$2 <= "2013/08/1601:30:00.000"' file
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2013-08-27 18:26 |只看该作者
回复 3# fortunegzhou

try them ...

# awk -vs="2013/08/16 01:15:00.000" -ve="2013/08/16 01:30:00.000" '{t=$1" "$2}s<t&&t<e' FILE

# awk 'BEGIN{s="2013/08/16 01:15:00.000";e="2013/08/16 01:30:00.000"}{t=$1" "$2}s<t&&t<e' FILE

# perl -lane 'BEGIN{$s="2013/08/16 01:15:00.000";$e="2013/08/16 01:30:00.000"}{$t="$F[0] $F[1]";if($s lt $t && $t lt $e){print}}' FILE

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
7 [报告]
发表于 2013-08-27 21:35 |只看该作者
学习了perl 字符串的比较方法
按你的改了改
  1. perl -lane 'print if "2013/08/16 01:15:00.000" lt "@F[0..1]" and "@F[0..1]" lt "2013/08/16 01:30:00.000"' filename
复制代码
回复 6# jason680


   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2013-08-27 22:04 |只看该作者
回复 3# fortunegzhou


    能否用你的数据测试一下这些方案,看看哪个最快,给大家分享一下吧

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
9 [报告]
发表于 2013-08-27 22:11 |只看该作者
回复 5# 关阴月飞


    这种比较是不是awk会忽略相关的字符自动转换为数字进行比较的?应该是这样吧

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
10 [报告]
发表于 2013-08-28 09:49 |只看该作者
建议上述用 awk 或 perl 的,可以在找到匹配的最后一行的时候执行退出执行,即后续不再扫描,对于大文件来说应该能提高速度。
如果lz允许一点容错的话,比如多了一两行数据没关系的话,sed的示例:
  1. [seesea@UC ~]$ cat file | sed -n '/2013\/08\/16\t01:15/, /2013\/08\/16\t01:30/ p'
  2. 2013/08/16      01:15:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  3. 2013/08/16      01:16:11.111    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  4. 2013/08/16      01:17:22.222    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  5. 2013/08/16      01:18:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  6. 2013/08/16      01:19:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  7. 2013/08/16      01:20:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  8. 2013/08/16      01:21:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  9. 2013/08/16      01:22:11.111    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  10. 2013/08/16      01:25:22.222    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  11. 2013/08/16      01:30:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0

  12. # 加上 q 命令,在找到最后一个匹配行退出,后续如果有几G的内容就能省下很多时间啦
  13. [seesea@UC ~]$ cat file | sed -n '/2013\/08\/16\t01:15/, /2013\/08\/16\t01:30/ p; /2013\/08\/16\t01:30/q;'
  14. 2013/08/16      01:15:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  15. 2013/08/16      01:16:11.111    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  16. 2013/08/16      01:17:22.222    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  17. 2013/08/16      01:18:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  18. 2013/08/16      01:19:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  19. 2013/08/16      01:20:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  20. 2013/08/16      01:21:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  21. 2013/08/16      01:22:11.111    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  22. 2013/08/16      01:25:22.222    E12345678900-0  6513    123     0       IN      OK()    0       0       0       0       0       0
  23. 2013/08/16      01:30:33.046    E68C93001100-0  6513    123     0       IN      OK()    0       0       0       0       0       0
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP