免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: FM1058
打印 上一主题 下一主题

求助--百度的一道shell题 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2009-10-11 15:41 |只看该作者

回复 #1 FM1058 的帖子

你处理之后的数据做如下处理即可满足题目要求。
awk '{a[$1]++}END{for (i in a)print a[i]"\t"i}' urfile | sort -nr

[[i] 本帖最后由 greendays 于 2009-10-11 15:43 编辑 [/i]]

论坛徽章:
0
12 [报告]
发表于 2009-10-11 15:48 |只看该作者
[jesse@localhost 1d]$ cat urfile
[url]http://www.baidu.com/index.html[/url]
[url]http://www.baidu.com/1.html[/url]
[url]http://post.baidu.com/index.html[/url]
[url]http://mp3.baidu.com/index.html[/url]
[url]http://www.baidu.com/3.html[/url]
[url]http://post.baidu.com/2.html[/url]
[jesse@localhost 1d]$ awk -F/ '{a[$3]++}END{for (i in a)print a[i]"\t"i}' urfile | sort -nr
3        www.baidu.com
2        post.baidu.com
1        mp3.baidu.com

[[i] 本帖最后由 greendays 于 2009-10-11 15:52 编辑 [/i]]

论坛徽章:
0
13 [报告]
发表于 2009-10-11 16:30 |只看该作者
awk -F'/' '{a[$3]++}END{for(i in a)print a,i|"sort -k1nr"}' file

论坛徽章:
0
14 [报告]
发表于 2009-10-12 09:12 |只看该作者
原帖由 cdleo 于 2006-12-28 16:43 发表
awk -F '/' '{print $3}' test | sort -r |  uniq -c

偶喜欢这个。



用awk输出列名也比较容易

$ awk -F '/' '{print $3}' baidu.txt | sort -r | uniq -c | awk 'BEGIN {print "times\tdomain"} {print $1"\t"$2}'
times   domain
3       www.baidu.com
2       post.baidu.com
1       mp3.baidu.com

[ 本帖最后由 aad 于 2009-10-12 09:23 编辑 ]

论坛徽章:
0
15 [报告]
发表于 2009-10-12 09:46 |只看该作者

  1. #!/usr/bin/perl

  2. use strict;
  3. use warnings;
  4. my %hash;

  5. foreach (<DATA>) {
  6.    $hash{$1} += 1 if (/http:\/\/(.*)?\/.*/);
  7. }

  8. foreach (sort {$hash{$b} <=> $hash{$a}} keys %hash) {
  9.     print "$hash{$_}\ $_\n";
  10. }


  11. __DATA__
  12. [url]http://www.baidu.com/index.html[/url]
  13. [url]http://www.baidu.com/1.html[/url]
  14. [url]http://post.baidu.com/index.html[/url]
  15. [url]http://mp3.baidu.com/index.html[/url]
  16. [url]http://www.baidu.com/3.html[/url]
  17. [url]http://post.baidu.com/2.html[/url]
复制代码

给你个perl的- -

[ 本帖最后由 cxfcxf 于 2009-10-12 11:34 编辑 ]

论坛徽章:
0
16 [报告]
发表于 2009-10-12 10:42 |只看该作者
我觉得匹配后的结果 使用 | sort -r |  uniq -c 会不会有问题
因为sort 的作用是排序,并不统计相同的次数。
所以,应该是 |sort | uniq -c | sort -r

你把 post.baidu.com或mp3.baidu.com多复制几个就知道了

论坛徽章:
0
17 [报告]
发表于 2009-10-12 11:01 |只看该作者
[root@cestos5 shell]# sed -e 's/.*\/\///' -e 's/\/.*//' urfile|sort |uniq -c|sort -r
      3 www.baidu.com
      2 post.baidu.com
      1 mp3.baidu.com

论坛徽章:
0
18 [报告]
发表于 2009-10-12 11:03 |只看该作者

回复 #15 cxfcxf 的帖子

这个不行 改了一下
1 #!/usr/bin/perl
      2
      3 use strict;
      4 use warnings;
      5 my %hash;
      6
      7 foreach (<DATA>) {
      8    $hash{$1} += 1 if (/http:\/\/([^\/]+)\/.*/);
      9 }
     10
     11 foreach (sort keys %hash) {
     12     print "$hash{$_} $_\n";
     13 }
     14
     15
     16 __DATA__
     17 http://www.baidu.com/index.html
     18 http://www.baidu.com/1.html
     19 http://post.baidu.com/index.html
     20 http://mp3.baidu.com/index.html
     21 http://www.baidu.com/3.html
     22 http://post.baidu.com/2.html

[ 本帖最后由 zhaobin81 于 2009-10-12 11:05 编辑 ]

论坛徽章:
0
19 [报告]
发表于 2009-10-12 11:37 |只看该作者
原帖由 zhaobin81 于 2009-10-12 11:03 发表
这个不行 改了一下
1 #!/usr/bin/perl
      2
      3 use strict;
      4 use warnings;
      5 my %hash;
      6
      7 foreach () {
      8    $hash{$1} += 1 if (/http:\/\/([^\/]+)\/.* ...

我改掉了 你这个也是不行的 我没看他要顺序....

论坛徽章:
0
20 [报告]
发表于 2009-10-12 16:56 |只看该作者
练练
gawk '{ vName= gensub(/http:\/\/(.+)\/.*/,"\\1", $0); a[vName]++}END{ for (i in a){print i,a | "sort -k2nr"} }' urfile
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP