- 论坛徽章:
- 0
|
1.1.1.1 - - [12/Sep/2015:00:00:07 +0800] "url1" 200 14634 "url1a" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36"
2.2.2.2 - - [12/Sep/2015:00:00:07 +0800] "url2" 404 14634 "url1b" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36"
3.3.3.3 - - [12/Sep/2015:00:00:07 +0800] "url3" 200 14634 "url1c" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36"
上面是我从我的一个服务器的日志,主要记录的内容http的访问记录,大致能看出来,里面记录了访问IP,日期,url,http返回值,大小,游览器等信息。
现在我需要从这些日志中提取出对应的信息,每条记录提取一条信息,统计所有返回值为404 的用户,以 _ip_ /t _日期(timestamp格式_ /t _大小_ /t _url来整理成一条。这个日志大概几千条吧,我目前想法是通过awk等将我需要的列拉取到文件,每一列一个文件,最后合并,但是这个方式好像太傻了。。而且说实话很没效率,有大神指导下还有什么办法对这些日志进行规范化处理吗? |
|