免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 16057 | 回复: 66
打印 上一主题 下一主题

外企笔试题请教 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-05-15 14:45 |只看该作者 |倒序浏览
apache日志文件 /log 里的日志格式如下
115.31.12.33 [24/Mar/2009:14:38:16+0800] "GET/search?q=xeon HTTP/1.1" 200 10623
116.18.84.12 [24/Mar/2009:14:41:25+0800] "GET/search?q=NERO8 HTTP/1.1" 200 20799

1. 统计一天内的总搜索量?
2. 统计一天内不同样的查询词,并显示被查询的次数最多的是哪个词?
3. 一天内访问IP数(不同样)最多的某一分钟是哪一分钟?

求助高手解答 呵呵

请求都加点注解

thanks

[ 本帖最后由 syttk 于 2009-5-15 15:53 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-05-15 15:34 |只看该作者
这个题目有练习价值。可以搜入 grep/sed/awk 教材。

1. 统计一天内的总搜索量?
grep "GET/search?q" apache.txt | wc -l

2. 统计一天内不同样的查询词,并显示被查询的次数最多的是哪个词?
grep "GET/search?q" apache.txt  | gawk -F= '{print $2}' | gawk '{print $1}'  > searchword.txt
sort searchword.txt  | uniq -c | sort | tail -1 | gawk '{print $2}'

3. 一天内访问IP数(不同样)最多的某一分钟是哪一分钟?

有点复杂。

[ 本帖最后由 yy_galois 于 2009-5-15 15:50 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2009-05-15 15:35 |只看该作者
1.
错了 cat logs|awk '{($2~"24\\/Mar\\/2009" && $3~"GET\\/search\\?q=")}; END{print NR}'


awk '{$0~"25/Mar" && $0~"GET/search"} END {print $0}' 3|wc -l

[ 本帖最后由 moartel 于 2009-5-20 11:21 编辑 ]

论坛徽章:
0
4 [报告]
发表于 2009-05-15 15:36 |只看该作者

  1. 1  awk '{v=substr($2,2,11)}/GET\/search/{a[v]++}END{for (i in a) print i,a[i]}' file|sort

  2. 2.1  awk '{v=substr($2,2,11);split($3,M,"q=")}a[v]!~M[2]{a[v]=a[v]" "M[2]}END{for (i in a) print i""a[i]}' file|sort

  3. 2.2   awk '{v=substr($2,2,11);split($3,M,"q=");a[v" "M[2]]++}END{for (i in a) print i,a[i]}' file|sort -k1,1 -k3,3nr |awk '!a[$1]++'

  4. 3  awk '{v1=substr($2,2,11);v2=substr($2,14,5);if (!(v1" "v2" "$1 in a)) b[v1" "v2]++;a[v1" "v2" "$1]=1}END{for (i in b) print i,b[i]}' file|sort -k1,1 -k3,3nr |awk '!a[$1]++'
复制代码

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
5 [报告]
发表于 2009-05-15 15:37 |只看该作者
1    awk -F'[:[]' '/search/{a[$2]++}END{for(j in a)print j,a[j]}' txt
2    grep 'search?' txt|awk -F'[:[ =]' '{a[$8]++}END{for(j in a)print a[j],j}'|sort|tail -1 |cut -d' ' -f2
3  有些难,研究下

论坛徽章:
0
6 [报告]
发表于 2009-05-15 15:38 |只看该作者

  1. 1 统计一天内的总搜索量?
  2. awk -F"[:[]" '{a[$2]++}END{for(i in a) print i"\t"a[i]}' LOGFILE

  3. 2.1 统计一天内不同样的查询词
  4. awk -F"[= :[]" '{a[$3"\t"$8]++}END{for(i in a) print i"\t"a[i]}' LOGFILE

  5. 2.2 显示被查询的次数最多的是哪个词
  6. awk -F"[= :[]" '{a[$3"\t"$8]++}END{for(i in a) print i"\t"a[i]}' LOGFILE | sort -k1,1 -k3,3nr | uniq -w 11

  7. 3 一天内访问IP数(不同样)最多的某一分钟是哪一分钟
  8. awk -F"[= :[]" '{s=$1"\t"$3"\t"$4":"$5;if(!b[s]){a[$3"\t"$4":"$5]++;b[s]++}}END{for(i in a) print i"\t"a[i]}' LOGFILE | sort -k1,1 -k3,3nr | uniq -w 11
复制代码

[ 本帖最后由 kwokcn 于 2009-5-15 15:46 编辑 ]

论坛徽章:
0
7 [报告]
发表于 2009-05-15 15:39 |只看该作者
呃,最后处理用uniq不如用awk了。:)

论坛徽章:
0
8 [报告]
发表于 2009-05-15 15:42 |只看该作者
第2.1题我搞复杂了

论坛徽章:
0
9 [报告]
发表于 2009-05-15 15:45 |只看该作者
2.  
awk -F[" ""="] '/search/ {++S[$4]} END {for(a in S) print a, S[a]}' /log

论坛徽章:
0
10 [报告]
发表于 2009-05-15 15:46 |只看该作者
第三题莫名其妙的对b做了个处理……小小修改一下……
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP