免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3854 | 回复: 5
打印 上一主题 下一主题

如何用脚本来实现论坛日志分析 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-04-03 17:19 |只看该作者 |倒序浏览
用脚本来实现论坛日志分析,要求实现以下3个功能,可一项一项实现,该怎么写,高手指点,其中日志中fid为版块ID,tid为帖子id.

1论坛每个板块每周的PV,IP数统计
2 全论坛/每个板块 每周的 新帖数/回帖数
3. 每个帖子每周的PV,IP,回帖数量


日志如下:


124.238.39.103 - - [03/Apr/2007:15:52:55 +0800] "GET /images/default/button_bg.gif HTTP/1.1" 200 149 "http://bbs.bbstest.com/viewthread.php?tid=52353&&fid=14&extra=page%3D1&act=1" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
124.238.39.103 - - [03/Apr/2007:15:52:54 +0800] "GET /customavatars/jane1502@sohu.com/photo_1147950704.jpg HTTP/1.1" 200 79735 "http://bbs.bbstest.com/viewthread.php?tid=52353&&fid=14&extra=page%3D1&act=1" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
124.238.39.103 - - [03/Apr/2007:15:52:54 +0800] "GET /customavatars/SW.5@163.COM/photo_1145354359.jpg HTTP/1.1" 200 99203 "http://bbs.bbstest.com/viewthread.php?tid=52353&&fid=14&extra=page%3D1&act=1" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
222.84.38.87 - - [03/Apr/2007:15:52:55 +0800] "GET /images/default/level/level_4.gif HTTP/1.0" 200 2587 "http://bbs.bbstest.com/viewthread.php?tid=8420&&fid=3&extra=page%3D1&act=1" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
219.238.1.170 - - [03/Apr/2007:15:52:56 +0800] "GET /api/passport.php?action=login&auth=VnZUaQY2BmcDbQQ0BTQAMVAwVjVSbVJgUWVXZFRnACQCI1ZxVm4Fcwg1B2dWOwFiAGgDOVY4USQFMQw5VWYGPFYyVDAGfQZyAzEEdgV2AHFQalZyUjFSa1FhV2JUYwBhAjBWMVZvBWQIOgc%2FVjQBMgBjA2RWaVFlBTcMblVtBjNWNVQyBm4GMANkBDwFZwBlUD1WMFIzUmVRclc1VDkAYwI%2FVm5WNgVtCDIHd1ZnATUAZgNtVmFRZQUlDD9VZQZ3VmtUbgY6BiwDMwRqBWg%3D&forward=http%3A%2F%2Fwww.ganji.com%2F&verify=df7209234a09330f65b4cbe9bcfe7739 HTTP/1.1" 302 - "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)"
222.84.38.87 - - [03/Apr/2007:15:52:57 +0800] "GET /images/smilies/6.gif HTTP/1.0" 200 4569 "http://bbs.bbstest.com/viewthread.php?tid=8420&&fid=3&extra=page%3D1&act=1" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"

论坛徽章:
0
2 [报告]
发表于 2007-04-03 21:51 |只看该作者
cat $logfile | cut -d"-" -f1 | sort -u | wc -l
可以得到IP 数

论坛徽章:
0
3 [报告]
发表于 2007-04-04 09:57 |只看该作者
兄弟,我是要统计论坛每个板块每周的PV,IP数统计
关键是日志的这段http://bbs.bbstest.com/viewthread.php?tid=52353&&fid=14,还和fid有关系的,fid=后面是频道的ID号,我想设一个变量比如这二个组成一个变量名(var+("为提取的ID号"))=varID+1;该怎么写这个命令?

论坛徽章:
0
4 [报告]
发表于 2007-04-04 12:36 |只看该作者
弱弱的问一下 什么是pv??

awk -F '[ &=]' '{if($9==200){print $1,$4, $9, "fid="$12,  $14"="$15} else {print $1,$4}}' youfile

看看怎么样

[ 本帖最后由 zhl1979 于 2007-4-4 12:38 编辑 ]

论坛徽章:
0
5 [报告]
发表于 2007-04-28 16:58 |只看该作者

我比较菜

刚接触这些,还比较菜,想到什么就写什么了,希望大家笑的同时能给点指点

#!/bin/sh
cat ufile1 | awk 'BEGIN{FS="\"";OFS=""} {print $1,$4 >"ufile2"}'
sed 's/\?/ /g;s/\&/ /g' ufile2 > ufile3
cat ufile3 | awk '{print $1,$4,$5,$7,$8 >"ufile4"}'

至于你说的统计次数的,我只会这样写
以统计IP为例子
cat ufile4 | awk 'BEGIN {FS=" ";OFS=" "} {arr[$1]+=1} END {for(ip in arr) print arr[ip],ip,$1}' | sort -n -r | awk '{print $0 > "ufile5"}'

想想也觉得好菜,呵呵,大牛指点下吧,刚开始学

论坛徽章:
0
6 [报告]
发表于 2007-04-28 17:40 |只看该作者
什么是pv  PV(page view),即页面浏览量,或点击量;通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。

  高手对pv的解释是,一个访问者在24小时(0点到24点)内到底看了你网站几个页面。这里需要强调:同一个人浏览你网站同一个页面,不重复计算pv量,点100次也算1次。说白了,pv就是一个访问者打开了你的几个页面。

  PV之于网站,就像收视率之于电视,从某种程度上已成为投资者衡量商业网站表现的最重要尺度。

  pv的计算:当一个访问着访问的时候,记录他所访问的页面和对应的IP,然后确定这个IP今天访问了这个页面没有。如果你的网站到了23点,单纯IP有60万条的话,每个访问者平均访问了3个页面,那么pv表的记录就要有180万条。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP