免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4302 | 回复: 12
打印 上一主题 下一主题

[文本处理] 解析wget日志 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-06-21 19:46 |只看该作者 |倒序浏览
Spider mode enabled. Check if remote file exists.
--2015-06-21 19:21:17--  http://a.b.com/
Resolving a.b.com... 1.2.3.4
Connecting to a.b.com||1.2.3.4 failed: Connection timed out.
Giving up.

从wget中生成的日志格式如上,当碰到timed out时候,就把a.b.com给解析出来

这个具体怎么写啊

一行一行读,读到url,存起来,然后再往下读碰到timed out,解析出url?

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
2 [报告]
发表于 2015-06-21 20:40 |只看该作者
解析出url?  是什么意思,是过滤出来吗

论坛徽章:
0
3 [报告]
发表于 2015-06-21 20:42 |只看该作者
就是把a.b.com给保存下来

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
4 [报告]
发表于 2015-06-21 20:45 |只看该作者
cat file
Spider mode enabled. Check if remote file exists.
--2015-06-21 19:21:17--  http://a.b.com/
Resolving a.b.com... 1.2.3.4
Connecting to a.b.com||1.2.3.4 failed: Connection timed out.
Giving up.
Spider mode enabled. Check if remote file exists.
--2015-06-21 19:21:17--  http://c.d.com/
Resolving a.b.com... 1.2.3.4
Connecting to a.b.com||1.2.3.4 failed: Connection timed out.
Giving up.

sed -rn '/http:\/\//{s#.*http://([^/]+)/#\1#;h;b};/timed out/{g;p}' file
a.b.com
c.d.com

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
5 [报告]
发表于 2015-06-21 21:08 |只看该作者
awk '/http:\/\//{a=gensub(/.*http:\/\/([^/]+)\//,"\\1",1,$0)}/timed out/{print a}' file
a.b.com
c.d.com

论坛徽章:
0
6 [报告]
发表于 2015-06-21 21:15 |只看该作者
  1. $ awk '/timed out.$/{split($3,t,"|");print t[1]}' 222.txt
  2. a.b.com
复制代码

论坛徽章:
0
7 [报告]
发表于 2015-06-21 22:15 |只看该作者
回复 5# 聆雨淋夜

\\1是啥意思
查了半天,没查明白


   

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
8 [报告]
发表于 2015-06-21 22:50 |只看该作者
本帖最后由 聆雨淋夜 于 2015-06-21 22:56 编辑

awk读取字符串"\\1",得到\1,这个你就熟悉了,跟sed中的后向引用一样

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
9 [报告]
发表于 2015-06-21 22:53 |只看该作者
回复 1# liumilan2009
  1. grep -Pzo '(?<=http://)[^/]+(?=/\s(.*\s)+.*timed out)' file
复制代码

论坛徽章:
0
10 [报告]
发表于 2015-06-22 00:43 |只看该作者
sed -nr '/timed out/{s#.*([a-z]{1,3}\.[a-z]{1,3}\.[a-z]{1,3}).*#\1#p}'
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP