免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
论坛 程序设计 Shell 正则
12下一页
最近访问板块 发新帖
查看: 3050 | 回复: 10
打印 上一主题 下一主题

正则 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-04-14 10:55 |只看该作者 |倒序浏览

论坛徽章:
0
2 [报告]
发表于 2009-04-14 11:01 |只看该作者
会分类不会统计

问外壳他们吧

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
3 [报告]
发表于 2009-04-14 11:06 |只看该作者

回复 #1 nogroup 的帖子

只针对给出的文本..

  1. awk -F'/' '{n=split($3,a,".");b[a[n-1]"."a[n]]++}END{for (i in b) print i,b[i]}'
复制代码

论坛徽章:
0
4 [报告]
发表于 2009-04-14 11:13 |只看该作者

回复 #3 liaosnet 的帖子

如果有.com.cn这种域名就搞不定。哈

论坛徽章:
0
5 [报告]
发表于 2009-04-14 11:14 |只看该作者

回复 #3 liaosnet 的帖子

非常不错。
如果能再改进一点,把xxx.com.cn这一类也能处理,就是完美了

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
6 [报告]
发表于 2009-04-14 11:19 |只看该作者

回复 #5 nogroup 的帖子

加判断... 本来这个就不是很通用的.还得考虑aa.cn这类的?

  1. awk -F'/' '{
  2.                   n=split($3,a,".");
  3.                   if ( a[n-1]"."a[n]=="com.cn"){
  4.                       b[a[n-2]"."a[n-1]"."a[n]]++
  5.                   }else{
  6.                       b[a[n-1]"."a[n]]++
  7.                   }
  8.                 }
  9.                 END{for (i in b) print i,b[i]}'
复制代码

论坛徽章:
0
7 [报告]
发表于 2009-04-14 11:19 |只看该作者
这样吧,我的文本内容中不会出现xx.xx.com.cn这样的域名,
只会有
xx.com
xx.org
xx.com.cn
xx.com
也即只会有顶级域名和一级域名,不会有二级域名。
如何处理呢?

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
8 [报告]
发表于 2009-04-14 11:23 |只看该作者

回复 #4 我是DBA 的帖子

来个特例判断呗~

论坛徽章:
0
9 [报告]
发表于 2009-04-14 11:41 |只看该作者
[root@Mylinux tmp]# awk -F '(http://)|/' 'gsub(/\./,"&",$2)==1{v=$2}gsub(/\./,"&",$2)==2{split($2,M,".");v=M[2]"."M[3]}{a[v]++}END{for (j in a) print j,a[j]}' file
sina.com 2
sohu.com 1
kaixin.com 1
taobao.com 4
tianya.com 1
caca.com 1
ifeng.com 1

论坛徽章:
0
10 [报告]
发表于 2009-04-14 12:07 |只看该作者
sed的,不过统计出来的格式与LZ要求的略有出入。


  1. [root@bj_manager test]# sed -r 's/http:\/\/([^/]*\.)?([^/]*\.)(com|org)([^/]*)\/.*/\2\3\4/' test.txt | sort | uniq -c
  2.       1 caca.com
  3.       1 ifeng.com
  4.       1 kaixin.com
  5.       2 sina.com
  6.       1 sohu.com
  7.       4 taobao.com
  8.       1 tianya.com
  9. [root@bj_manager test]#
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP