免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1976 | 回复: 3
打印 上一主题 下一主题

[文本处理] 如何统计文件中出现次数最多的前10个 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-04-10 17:13 |只看该作者 |倒序浏览
假设access.log 日志内容:


www.google.com
www.sohu.com
www.sina.com
www.sina.com
www.163.com
www.263.net
www.sina.com
www.google.com

如何用awk grep wc或者其他统计出哪个域名出现次数最多,出现最多的前3个域名和他们出现的次数呢?真心求教~

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2013-04-10 17:30 |只看该作者
这个问题前不久有人问过类似的。最简单,最直观的方法:
  1. awk '{a[$0]++}END{for(i in a)print i,a[i]}' i | sort -k2nr | head -3
复制代码

论坛徽章:
0
3 [报告]
发表于 2013-04-10 17:40 |只看该作者
  1. awk '{a[$0]++}END{for(i in a)print i,a[i]|"sort -nrk2"}' file
复制代码
  1. sort -nr file |uniq -c|sort -k1nr|head -3
复制代码

论坛徽章:
0
4 [报告]
发表于 2013-04-11 23:13 |只看该作者
那这个能否用sed命令实现其效果?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP