免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: fangj1n
打印 上一主题 下一主题

[文本处理] 寻找一个天外飞仙级的shell命令 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2013-08-01 15:30 |只看该作者
我是来学习的

论坛徽章:
0
12 [报告]
发表于 2013-08-01 15:38 |只看该作者
echo http://www.xx.baidu.com | awk -F"/" '{ print $3 }'

论坛徽章:
0
13 [报告]
发表于 2013-08-01 15:46 |只看该作者
问题都没说清楚。无法盲目给出答案~

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
14 [报告]
发表于 2013-08-02 09:05 |只看该作者
没有样本怎么能给方案。感觉大家都一直是猜。LZ不厚道。

论坛徽章:
5
金牛座
日期:2013-10-14 14:40:422015年亚洲杯之伊朗
日期:2015-03-26 10:37:012015亚冠之浦和红钻
日期:2015-10-12 17:47:4115-16赛季CBA联赛之山东
日期:2016-01-20 16:43:1215-16赛季CBA联赛之辽宁
日期:2016-03-29 16:43:59
15 [报告]
发表于 2013-08-02 12:39 |只看该作者
你可以试下这个
例子,在不同目录不同文件中包含的域名
1www.baidu.com
1music.baidu.com
1toc.wangyi.com
2www.chinaunix.net
2weibo.chinaunix.com
3www.t1.com.cn
3www.t1.net.cn
3web.t2.net.cn
3web.t2.com.cn
www.t3.com.net


#find . -type f |xargs  awk -F '.' '/http:\/\//{if (  $(NF-1) != "net" && $(NF-1) != "com" ){print $(NF-1),".",$NF}else{print $(NF-2),".",$(NF-1),".",$NF}}' |sed -e 's/ //g'

结果:
baidu.com
baidu.com
wangyi.com
chinaunix.net
chinaunix.com
t1.com.cn
t1.net.cn
t2.net.cn
t2.com.cn
t3.com.net
说明:
1、至于重复你可以自行叫sort+uniq去除
2、其中的if语句是要过滤出二级域名,具体还有那些二级郁闷在if判断中添加 && $(NF-1) != "com"(com为其他的一些二级域名,我不详细列出了)

论坛徽章:
0
16 [报告]
发表于 2013-08-02 12:42 |只看该作者
find ./ *.html|xargs grep "http://www.baidu.com"

论坛徽章:
0
17 [报告]
发表于 2013-08-02 14:04 |只看该作者
echo http://www.baidu.com |awk -F"/" '{ print $3 }'
www.baidu.com
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP