免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: yu34po
打印 上一主题 下一主题

[文本处理] 每天5G的nginx日志,需要怎么分析? [复制链接]

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
31 [报告]
发表于 2013-12-09 13:12 |只看该作者
回复 30# yu34po


    Perl版块在这里http://bbs.chinaunix.net/forum-25-1.html

论坛徽章:
0
32 [报告]
发表于 2013-12-09 13:31 |只看该作者
回复 31# Shell_HAT


    那边人气不足啊。

论坛徽章:
0
33 [报告]
发表于 2013-12-10 08:55 |只看该作者
回复 28# yestreenstars


    还有个问题,有些这样的请求结果:
61.4.184.93 - - [05/Dec/2013:06:03:49 +0800] "GET http://webapi.weather.com.cn/?x- ... yg840XL5dqjWqE%253D HTTP/1.1" 403 143 "-" "Dalvik/1.6.0 (Linux; U; Android 4.1.2; SCH-I829 Build/JZO54K)" 10.61.196.20
这样会导致出来的结果数据是乱的。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
34 [报告]
发表于 2013-12-10 09:15 |只看该作者
回复 33# yu34po
这结果会被过滤掉的啊!

   

论坛徽章:
0
35 [报告]
发表于 2013-12-10 09:25 |只看该作者
回复 34# yestreenstars

关键是没过滤掉啊。。不知道为啥,结果出来是乱的。appid:  61.4.184.93 - - [05/Dec/2013:06:03:49 +0800] "GET http://webapi.weather.com.cn/?x- ... 840XL5dqjWqE%25253D HTTP/1.1" 403 143 "-" "Dalvik/1.6.0 (Linux; U; Android 4.1.2; SCH-I829 Build/JZO54K)" 10.61.196.20
times:  1
会有很多这样的结果。。而且那个awk脚本在服务器上处理日志,过了20分钟还没反应。。。

   

论坛徽章:
0
36 [报告]
发表于 2013-12-10 09:56 |只看该作者
回复 33# yu34po

先用awk '$9 != 403' 过滤掉那些不要的(或awk '$9 == 200'过滤想要的),再通过Pipe给下一个命令。
多用Pipe会快些
   

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
37 [报告]
发表于 2013-12-12 22:26 |只看该作者
本帖最后由 elu_ligao 于 2013-12-12 22:29 编辑
  1. $ ls -ltrh
  2. -rw-rw-r-- 1 redhat redhat 3.2G Dec 12 14:56 tmp

  3. $ wc -l tmp
  4. 14365494 tmp

  5. 1:
  6. user    count
  7. 1cfdf7  4774
  8. 1cfdf9  16709
  9. 1fde98  21483
  10. 2cfdf7  9548
  11. 2cfdf9  14322
  12. 2fde98  14322
  13. 3cfdf7  1185265
  14. 3cfdf9  1166098
  15. 4cfdf7  4774
  16. 4cfdf9  7161
  17. 4fde98  21483
  18. 7cfdf7  1187576
  19. 7cfdf9  3560341
  20. 7fde98  7151639
  21. ----------------------------------
  22. 2:
  23. uesr    areaid      type    count
  24. 1cfdf7  101243503  observe  2387
  25. 1cfdf7  101243533  observe  2387
  26. 1cfdf9  101243506  observe  7161
  27. 1cfdf9  101243536  observe  9548
  28. 1fde98  329103323  observe  4774
  29. 1fde98  329103325  observe  2387
  30. 1fde98  329103333  observe  4774
  31. 1fde98  329103334  observe  4774
  32. 1fde98  329103335  observe  4774
  33. 2cfdf7  101243503  observe  4774
  34. 2cfdf7  101243533  observe  4774
  35. 2cfdf9  101243506  observe  7161
  36. 2cfdf9  101243536  observe  7161
  37. 2fde98  329103323  observe  4774
  38. 2fde98  329103333  observe  2387
  39. 2fde98  329103334  observe  2387
  40. 2fde98  329103335  observe  4774
  41. 3cfdf7  101243533  observe  1185265
  42. 3cfdf9  101243536  observe  1166098
  43. 4cfdf7  101243503  observe  2387
  44. 4cfdf7  101243533  observe  2387
  45. 4cfdf9  101243506  observe  4774
  46. 4cfdf9  101243536  observe  2387
  47. 4fde98  329103323  observe  2387
  48. 4fde98  329103324  observe  11935
  49. 4fde98  329103325  observe  2387
  50. 4fde98  329103333  observe  2387
  51. 4fde98  329103335  observe  2387
  52. 7cfdf7  101243503  observe  1187576
  53. 7cfdf9  101243506  observe  2375152
  54. 7cfdf9  101243536  observe  1185189
  55. 7fde98  329103323  observe  1185189
  56. 7fde98  329103324  observe  1211526
  57. 7fde98  329103325  observe  1192350
  58. 7fde98  329103333  observe  1187422
  59. 7fde98  329103334  observe  1189963
  60. 7fde98  329103335  observe  1185189
  61. ----------------------------------
  62. 3:
  63. IP              count
  64. 61.4.184.91     3591372
  65. 61.4.184.92     5935265
  66. 61.4.184.93     3605924
  67. 61.4.184.94     1173259
  68. 61.4.184.95     23870
  69. 61.4.184.97     16709
  70. 61.4.184.99     19096

  71. real    29m2.388s
  72. user    27m13.711s
  73. sys     0m10.645s



  74. time awk -F '&' -v fg="----------------------------------" '/areaid=/&&/appid=/&&/type=/{ip=gensub(/([^ ]*).*/, "\\1", 1, $1);areaid=gensub(/.*=(.*)/,"\\1",1,$1);a[ip]++;type=gensub(/type=(.*)/,"\\1",1,$2);appid=gensub(/appid=(.*)/,"\\1",1,$4);b[appid"\t"areaid"  "type]++;c[appid]++;}END{l=asorti(c,sc);print "1:\nuser\tcount";for(i=1;i<=l;++i){print sc[i]"\t"c[sc[i]]}; print fg;print "2:\nuesr\tareaid\t    type    count";l=asorti(b,sb);for(i=1;i<=l;++i)print sb[i]"  "b[sb[i]];print fg;print "3:\nIP\t\tcount";l=asorti(a,sa);for(i=1;i<=l;++i)print sa[i]"\t"a[sa[i]]}' tmp
复制代码
回复 35# yu34po

   

论坛徽章:
4
技术图书徽章
日期:2013-09-23 10:22:37狮子座
日期:2013-10-15 23:31:54卯兔
日期:2013-11-11 17:33:15金牛座
日期:2013-11-15 17:25:28
38 [报告]
发表于 2013-12-12 22:41 来自手机 |只看该作者
我以前做过类似的
把所有web farm的日志集中到一台服务器上处理,为了节省空间和带宽,日志在原始服务器上已经压缩了。
因为日志太大,使用shell服务器的压力会很大。我当时是使用perl readline, 读一行处理一行
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP