免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1263 | 回复: 4

[文本处理] nginx_access日志处理 [复制链接]

论坛徽章:
2
黑曼巴
日期:2017-09-18 16:16:1315-16赛季CBA联赛之广东
日期:2017-10-25 16:20:16
发表于 2017-09-18 16:25 |显示全部楼层
如题,求一个shell.日志格式如下
100.116.128.29 - - [31/Aug/2017:03:32:57 +0800] "GET /ccc/index/js/main/index-29560643.js HTTP/1.0" 200 15864 "https://www.test.com/" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36" "42.156.136.10" www.test.com - - - 0.000

100.116.128.83 - - [31/Aug/2017:08:15:43 +0800] "OST /login/ajax HTTP/1.0" 200 114 "https://www.test.com/" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER" "113.235.12.33" www.test.com 127.0.0.1:8000 200 0.024 0.024


要求
输出第一个列:100.116.128.83
输出第二列:31/Aug/2017:08:15:43 +0800
输出第三列请求类型OST/GET
输出第四列状态码:200
输出第五列网站地址:https://www.test.com/
输出第七列浏览器类型:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36
输出第八列访问实际IP:113.235.12.33

统计实际IP访问次数.
求大神给写一个最好能像表格一样显示出来的.
cat access.log-20170901 | awk '{print $1,substr($4,2,20),substr($6,2,3),$9,$11,$12,$21,$22,$23,$24}'  |sort |uniq -c |sort -k1 -nr
没有统

论坛徽章:
2
黑曼巴
日期:2017-09-18 16:16:1315-16赛季CBA联赛之广东
日期:2017-10-25 16:20:16
发表于 2017-10-11 17:14 |显示全部楼层
自己写出来了.只是还需要细化很多东西
^(?<remote_addr>\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}) - - \[(?<time_local>.*)\] "(?<request>[^"]*)" (?<status>\d+) (?<body_bytes_sent>\d+) "(?<http_referer>[^"]*)" "(?<http_user_agent>[^"]*)" "(?<http_x_forwarded_for>\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})" (?<http_host>(\w+\.){2}\w+) (?<upstream_addr>\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\:\d{1,5})(?<upstream_status>\d{1,3}) (?<upstream_response_time>([0-9\" ".]*))

论坛徽章:
21
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之深圳
日期:2018-06-15 14:59:3715-16赛季CBA联赛之八一
日期:2018-07-03 16:56:4615-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之青岛
日期:2018-06-08 13:45:2815-16赛季CBA联赛之同曦
日期:2018-06-04 19:42:2015-16赛季CBA联赛之山东
日期:2018-05-30 12:44:59
发表于 2017-10-12 11:33 |显示全部楼层
本帖最后由 wh7211 于 2017-10-12 11:39 编辑

回复 1# jgrlj322


  1. awk '{y="^([^ ]+)[^[]+\\[([^]]+)[^\"]+\"([^ ]+)[^\"]+[^0-9]+([^ ]+)[^\"]+\"([^\"]+)\"[^\"]+\"([^\"]+)\"[^\"]+\"([^\"]+)"};match($0,y,t){print t[1],t[2],t[3],t[4],t[5],t[6],t[7];a[t[7]]++}END{for(i in a){print i,a[i]}}' access.log-20170901
复制代码

论坛徽章:
130
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2017-10-12 15:12 |显示全部楼层
回复 1# jgrlj322

How about this way...

$ awk -f get_log.awk a.log
100.116.128.29    31/Aug/2017:03:32:57 +0800    GET    200    https://www.test.com/    Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36    42.156.136.10
                        
100.116.128.83    31/Aug/2017:08:15:43 +0800    POST    200    https://www.test.com/    Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER    113.235.12.33


$ cat get_log.awk
function qq( c,n){
  c = 0;
  for (n = 1; n <= NF; n++) {
    if($n~/^"/ && $n~/"$/){
      #gsub(/"/,"")  # for removed the "
      $(++c) = $n
      continue
    }
    if(q == 1){
      if($n~/"$/){
      #if(sub(/"$/,"",$n)){   # for removed the "
        q = 0
      }
      $c = $c FS $n
      continue
    }
    if($n~/^"/){
    #if(sub(/^"/,"",$n)){   # for removed the "
      q = 1
      $(++c) = $n
      continue
    }
    $(++c) = $n
  }
  NF = c
}
{
  #print "NF="NF,"before modified"
  m=$6;
  sub("\"","",m);
  qq();
  #print "NF="NF,"after modified"
  for (n = 1; n <= NF; n++) {
    gsub("\"","",$n);
    gsub("^\\[|]$","",$n);
    #printf("$%d = <%s>\n", n, $n)
  }
  ip=$1;
  time=$4" "$5
  method = m;
  status=$7
  www=$9
  broswer=$10
  real_ip=$11
  OFS="\t";
  print ip,time,method,status,www,broswer,real_ip
}

论坛徽章:
2
黑曼巴
日期:2017-09-18 16:16:1315-16赛季CBA联赛之广东
日期:2017-10-25 16:20:16
发表于 2017-10-25 16:19 |显示全部楼层
非常感谢两位的大神的回复,谢谢
当初写的时候是想通过awk等工具来实现.后来用ELK发现画图狠屌.所以我写的是grok正则规则.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。




----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP