免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1704 | 回复: 2

shell合并相同 [复制链接]

论坛徽章:
0
发表于 2012-06-09 17:43 |显示全部楼层
需求:在一个网站找出所有外链,需要确定一个网站在这个链接中的序号,目前使用命令:
curl -s www.4399.com | sed -n 's#href="http:#\n#gp' | grep '//' | sed 's#//##g' | awk -F'["/]' '{ print $1 }' | sed '/4399.com/d'
取出来的结果是

www.hao123.com
game.3533.com
game.3533.com
game.3533.com
www.ip138.com
www.4399api.com
www.12318.org
www.cogcpa.org

我的要求是将重复的删除,比如game.3533.com(不一定是顺序,可能跳过了还有一个,然后在前面标上序号(注意不能打乱原来的排序,如使用sort排序来删除),最后结果应该是类似:

1 www.hao123.com
2 game.3533.com
3 www.ip138.com
4 www.4399api.com
5 www.12318.org
6 www.cogcpa.org

论坛徽章:
0
发表于 2012-06-09 18:14 |显示全部楼层
用uniq去掉了重复,剩下一个标序号

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
发表于 2012-06-09 19:29 |显示全部楼层
awk '!a[$0]++' file
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2021中国系统架构师大会

【数字转型 架构重塑】2021年5月20日-22日第十三届中国系统架构师大会将在云端进行网络直播。

大会为期3天的议程,涉及20+专场,近120个主题,完整迁移到线上进行网络直播对会议组织来说绝非易事;但考虑到云端会议的直播形式可以实现全国各地技术爱好者的参与,也使ITPUB作为技术共享交流平台得到更好的普及,我们决定迎难而上。
http://sacc.it168.com/


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP