免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 13541 | 回复: 10
打印 上一主题 下一主题

[文本处理] 急 access.log 的日志怎么分拆啊 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-12-19 11:36 |只看该作者 |倒序浏览
有个access.log的日志,格式如下
123.12.67.123 - - 2013-12-15 11:42:22 "GET /index.do HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=42ide" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
122.12.67.123 - - 2013-12-15 11:42:22 "POST /accl.do?name=232 HTTP/1.0" 302 67 "http://aa.bb.cc/querylist.do" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
132.12.67.123 - - 2013-12-15 11:42:22 "GET /baxe.do?a=12 HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=gyujhf" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
122.12.67.123 - - 2013-12-15 11:42:22 "GET /ccdw.do HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=werrrr" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"

  如何用shell分析后的结果如下啊,这个shell怎么写呢
123.12.67.123|/index.do|http://aa.bb.cc/register.do|113.222.45.227
132.12.67.123|/accl.do|http://aa.bb.cc/querylist.do|113.222.45.227
132.12.67.123|/baxe.do|http://aa.bb.cc/register.do|113.222.45.227

论坛徽章:
0
2 [报告]
发表于 2013-12-19 11:42 |只看该作者
有点小麻烦,,,思路: 先按照空格取你想要的field,,,,,在field里过滤你想要的字符串,,,,然后拼接

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2013-12-19 12:01 |只看该作者
本帖最后由 jason680 于 2013-12-19 12:01 编辑

回复 1# wzltian

$ awk -F'[ ,?"]+' -vOFS="|" '{for(n=1;n++<NF;)if($n~/http:/){W=$n;n=NF};print $1,$7,W,$(NF-2)}' access.log
123.12.67.123|/index.do|http://aa.bb.cc/register.do|113.222.45.227
122.12.67.123|/accl.do|http://aa.bb.cc/querylist.do|113.222.45.227
132.12.67.123|/baxe.do|http://aa.bb.cc/register.do|113.222.45.227
122.12.67.123|/ccdw.do|http://aa.bb.cc/register.do|113.222.45.227
   

论坛徽章:
0
4 [报告]
发表于 2013-12-19 12:29 |只看该作者
  谢谢 jason680,你这个例子真是简练, 如果再增加2个条件
1、 如果是url只取http://aa.bb.cc/xxx.do开头的,其他的url都过滤,比如过滤掉http://www.soport.cn/等,这个怎么写呢?
2、 后面有3个ip,其中,第三个是我想要的,但若有后面的第三个ip有时会没有
  这是我现在遇到的真实情况,这个怎么写呢?  盼复
123.12.67.123 - - 2013-12-15 11:42:22 "GET /index.do HTTP/1.0" 302 67 "http://www.soport.cn/register.do?jwd=42ide" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, "
122.12.67.123 - - 2013-12-15 11:42:22 "POST /accl.do?name=232 HTTP/1.0" 302 67 "http://aa.bb.cc/querylist.do" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
132.12.67.123 - - 2013-12-15 11:42:22 "GET /baxe.do?a=12 HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=gyujhf" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
122.12.67.123 - - 2013-12-15 11:42:22 "GET /ccdw.do HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=werrrr" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
5 [报告]
发表于 2013-12-19 14:09 |只看该作者
回复 4# wzltian
  1. sed -r 's#([^ ]+).*[(GET|POST)] +/([^ ?]+).*(http://[^(?|")]+).*" +"([^,]+).*#\1|\2|\3|\4#g' file  
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2013-12-19 14:13 |只看该作者
本帖最后由 jason680 于 2013-12-19 14:25 编辑

回复 4# wzltian


$ awk -F'[ ,?"]+' -vOFS="|" '{for(n=1;n++<NF;)if($n~/http:/){if($n!~/aa\.bb\.cc/)next;W=$n;n=NF};IP=$(NF-3)~/\)$/?NF-2:NF-3;print $1,$7,W,$IP}' access.log
122.12.67.123|/accl.do|http://aa.bb.cc/querylist.do|126.23.22.11
132.12.67.123|/baxe.do|http://aa.bb.cc/register.do|126.23.22.11
122.12.67.123|/ccdw.do|http://aa.bb.cc/register.do|126.23.22.11

   

论坛徽章:
0
7 [报告]
发表于 2013-12-19 14:39 |只看该作者
不好意思,我刚才没有表达清楚  如果是url只取http://aa.bb.cc/xxx.do开头的,其他的url都过滤,比如过滤掉http://www.soport.cn/等,这个怎么写呢?

123.12.67.123 - - 2013-12-15 11:42:22 "GET /index.do HTTP/1.0" 302 67 "http://www.soport.cn/register.do?jwd=42ide" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, "
122.12.67.123 - - 2013-12-15 11:42:22 "POST /accl.do?name=232 HTTP/1.0" 302 67 "http://aa.bb.cc/querylist.do" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
132.12.67.123 - - 2013-12-15 11:42:22 "GET /baxe.do?a=12 HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=gyujhf" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
122.12.67.123 - - 2013-12-15 11:42:22 "GET /ccdw.do HTTP/1.0" 302 67 "http://aa.bb.cc/register.do?jwd=werrrr" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)" "126.23.22.11" "113.222.45.227, 127.0.0.1"
----------------- 过滤掉不是以http://aa.bb.cc 这些url请求的,即只要http://aa.bb.cc这样的请求。 下面是我想要的结果----------
2013-12-15 11:42:22|/accl.do|http://aa.bb.cc/querylist.do|126.23.22.11
2013-12-15 11:42:22|/baxe.do|http://aa.bb.cc/register.do|126.23.22.11
2013-12-15 11:42:22|/ccdw.do|http://aa.bb.cc/register.do|126.23.22.11

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
8 [报告]
发表于 2013-12-19 14:54 |只看该作者
我觉得楼主的问题如果用 perl 来写一段 会比较容易. 用 shell 来处理一次还可以, 以后要维护的话, 成本可能不低于 perl.

论坛徽章:
0
9 [报告]
发表于 2013-12-19 15:52 |只看该作者
回复 6# jason680

谢谢了,刚看到你回复
  

   

论坛徽章:
0
10 [报告]
发表于 2013-12-19 15:54 |只看该作者
回复 5# reyleon

  谢谢啊,你的这个方法也好
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP