免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2688 | 回复: 5

[文本处理] 根据指定URL取状态码为200,去除爬虫,最后计算UV,PV [复制链接]

论坛徽章:
0
发表于 2015-09-16 19:07 |显示全部楼层
因为不能发URL,所以URL我就省去了,所以大家将就下。
列不固定,因为$1可能是3列IP,  1.1.1.1, 2.2.2.2, 3.3.3.3



上面是举例日志:
运营需求:
1、计算这种URL的PV,/b/sZ1RcAA17xx
2、同时计算独立IP
3、最后输出格式如下
网页(去重后)                                          独立IP(去重后)       PV
xxx/b/sZ1RcAA17                                     xxx(个)            xxxx


附加需求:
1、首先要排除日志中出现的爬虫  $0 !~ /\.png|analytics|spider|googlebot|bingbot|AhrefsBot|TweetmemeBot|YandexBot|DotBot|msnbot|libwww-perl|WebIndex|Apache-HttpClient|slurp|Python-urllib|favicon/   
2、要匹配/^http.*\/b\/.*\.html$/同时网页状态码200(200状态码不需要打印出来),同时取出IP

我自己的思路:
排除爬虫,匹配html同时匹配状态码200,打印IP,和URL,最后去重整个数据,因为PV会有重复的,
cat xxx.txt |awk --re-interval '$0 !~ /\.png|analytics|spider|googlebot|bingbot|AhrefsBot|TweetmemeBot|YandexBot|DotBot|msnbot|libwww-perl|WebIndex|Apache-HttpClient|slurp|Python-urllib|favicon/ {for(i=1;i<=NF;i++)if($i~/^http.*\/b\/.*\.html$/ && $(i+2) == 200)  print $1,$2,$3,$i}'

结果类似以下:现在要去重PV和IP,
66.249.67.88 - - xxx.xxx.xx/b/5271416


举例:
1.1.1.1 IP会访问A页面,也会访问B页面,这样PV算2个,IP算一个,
1.1.1.1 访问A页面,2.2.2.2也访问A页面,,这样PV算一个,IP算两个,

然后统计出结果
3、最后输出格式如下
网页(去重后)                                          独立IP(去重后)       PV
xxx/b/sZ1RcAA17                                     xxx(个)            xxxx

论坛徽章:
0
发表于 2015-09-16 19:10 |显示全部楼层
日志有几十G。。


要匹配的url  xxx://xxx.xxx.xxx/b/sdf2h34.html

论坛徽章:
7
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:18程序设计版块每日发帖之星
日期:2015-08-09 06:20:00每日论坛发贴之星
日期:2015-08-09 06:20:00程序设计版块每日发帖之星
日期:2015-08-22 06:20:00程序设计版块每日发帖之星
日期:2015-08-27 06:20:00
发表于 2015-09-17 11:17 |显示全部楼层
这个可以先谈谈费用不 :)

论坛徽章:
0
发表于 2015-09-17 11:53 |显示全部楼层
最后一段实在没理解

  1. /*
  2. 66.249.67.88 - - xxx.xxx.xx/b/5271416
  3. 66.249.67.88 - - xxx.xxx.xx/b/5271417
  4. 66.249.67.88 - - xxx.xxx.xx/b/5271418
  5. 66.249.67.86 - - xxx.xxx.xx/b/5271416
  6. */
复制代码
结果应该是两张表啊
单独统计
一张表
66.249.67.88 访问了3个页面
66.249.67.86 访问了1个页面

xxx.xxx.xx/b/5271416 被2个ip访问了
xxx.xxx.xx/b/5271417 被1个ip访问了
xxx.xxx.xx/b/5271416 被一个ip访问了
你要做成一张表,如何做啊?

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
发表于 2015-09-17 13:34 |显示全部楼层
看不懂啊

论坛徽章:
0
发表于 2015-09-21 12:26 |显示全部楼层
谢谢大家踊跃回答,这个我已经处理好了,下次提问会注意的。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP