免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 方兆国儿
打印 上一主题 下一主题

[文本处理] 截取网址 [复制链接]

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
41 [报告]
发表于 2016-12-06 11:01 |只看该作者

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
42 [报告]
发表于 2016-12-06 11:02 |只看该作者
本帖最后由 方兆国儿 于 2016-12-06 12:38 编辑

复制代码

oo.zip

1.99 KB, 下载次数: 14

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
43 [报告]
发表于 2016-12-06 11:05 |只看该作者
本帖最后由 方兆国儿 于 2016-12-06 12:38 编辑

请删掉多余的帖子

cu.zip

1.99 KB, 下载次数: 16

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
44 [报告]
发表于 2016-12-06 11:06 |只看该作者
[ 本帖最后由 方兆国儿 于 2016-12-06 12:37 编辑 ]\n\n请删除多余的帖子

cu.zip

1.99 KB, 下载次数: 16

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
45 [报告]
发表于 2016-12-06 11:07 |只看该作者
换浏览器还是这样,提交代码就报错!

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
46 [报告]
发表于 2016-12-06 11:10 |只看该作者
本帖最后由 方兆国儿 于 2016-12-06 12:37 编辑

  1. 请删除多余帖子
复制代码

cu.zip

1.99 KB, 下载次数: 16

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
47 [报告]
发表于 2016-12-06 11:10 |只看该作者
回复 2# 王楠w_n

请帮忙处理一下,谢谢。

论坛徽章:
4
15-16赛季CBA联赛之北控
日期:2016-12-06 11:11:0115-16赛季CBA联赛之广夏
日期:2016-12-06 15:04:1515-16赛季CBA联赛之四川
日期:2016-12-06 15:59:51黑曼巴
日期:2016-12-09 20:24:05
48 [报告]
发表于 2016-12-06 11:15 |只看该作者
本帖最后由 方兆国儿 于 2016-12-06 14:47 编辑
  1. zip -r cu.zip cu
  2. adding: cu/ (stored 0%)
  3. adding: cu/cu.sh (deflated 57%)
  4. adding: cu/cu.txt (deflated 79%)
复制代码


cu.zip (1.99 KB, 下载次数: 19)   为方便大家,相关内容已压入附件,多谢。
大家都强调我的数据类型不完整,在此重新统计,以下文为例:
  1. cat cu.txt
  2. Dec 2 10:12:19 ooxx-term[2060]: ooxx_pool/s1 200 {Mac+OS+X/10.12.1 (16B2555) CalendarAgent/384} "CONNECT p11-caldav.icloud.com:443 HTTP/1.1"
  3. Dec 2 10:12:21 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://www.ipip.net/ HTTP/1.1"
  4. Dec 2 10:12:23 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT wx.qq.com:443 HTTP/1.1"
  5. Dec 2 10:12:25 ooxx-term[2060]: ooxx_pool/s1 200 {trustd (unknown version) CFNetwork/807.1.3 Darwin/16.1.0 (x86_64)} "GET http://gn.symcd.com/MFYwVKADAgEAME0wSzBJMAkGBSsOAwIaBQAEFLGLCwGXUwcsdDfSnbPhjaNszlfgBBTSb%2FeW9IU%2FcjwwfSPahXibo3xafAIQa1D5LH%2BKMjI0sFeAEoCizQ%3D%3D HTTP/1.1"
  6. Dec 2 10:12:26 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT js.aq.qq.com:443 HTTP/1.1"
  7. Dec 2 10:12:26 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT res.wx.qq.com:443 HTTP/1.1"
  8. Dec 2 10:12:26 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://bbs.chinaunix.net/ HTTP/1.1"
  9. Dec 2 10:12:27 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://bbs.chinaunix.net/data/cache/style_3_common.css?HLC HTTP/1.1"
  10. Dec 2 10:12:27 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://bbs.chinaunix.net/data/cache/style_3_forum_index.css?HLC HTTP/1.1"
  11. Dec 2 10:12:27 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://bbs.chinaunix.net/static/js/common.js?HLC HTTP/1.1"
  12. Dec 2 10:12:28 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT res.wx.qq.com:443 HTTP/1.1"
  13. Dec 2 10:20:16 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT im.mukewang.com:80 HTTP/1.1"
  14. Dec 2 10:20:16 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://coding.imooc.com/static/lib/login-regist/tpl/erweima.js?v=201611280061 HTTP/1.1"
  15. Dec 2 10:20:16 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://szimg.mukewang.com/57ea56bd0001f6cb01400140-200-200.jpg HTTP/1.1"
  16. Dec 2 10:20:17 ooxx-term[2060]: ooxx_pool/s1 200 {trustd (unknown version) CFNetwork/807.1.3 Darwin/16.1.0 (x86_64)} "GET http://ocsp.comodoca.com/MFYwVKADAgEAME0wSzBJMAkGBSsOAwIaBQAEFHrhPuigxCostCjL56YFRhlA4qHpBBSQr2o6lFoL2JDqElZz30O0Oija5wIQVY0%2F9sceAGHVl7iNuX8gzA%3D%3D HTTP/1.1"
  17. Dec 2 10:20:53 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "POST http://python.jobbole.com/wp-admin/admin-ajax.php HTTP/1.1"
  18. Dec 2 10:21:31 ooxx-term[2060]: ooxx_pool/s1 200 {trustd (unknown version) CFNetwork/807.1.3 Darwin/16.1.0 (x86_64)} "GET http://g.symcd.com/MEkwR6ADAgEAMEAwPjA8MAkGBSsOAwIaBQAEFLG0OReQFreXeVAR8WC51KI82%2B3uBBQA%2BSrDQZG2ycK4PlXywJcRE6AHIAIDAjp3 HTTP/1.1"
  19. Dec 2 10:12:31 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://cu.img168.net/static/image/common/tubiao/common_283_icon.png HTTP/1.1"
  20. Dec 2 10:12:31 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://cu.img168.net/static/image/common//logo.gif HTTP/1.1"
  21. Dec 2 10:12:31 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://cu.img168.net/static/image/common/tubiao/common_233_icon.png HTTP/1.1"
  22. Dec 2 10:12:31 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://bbs.chinaunix.net/data/attachment/common/icon/clearcase.gif HTTP/1.1"
  23. Dec 2 10:14:00 ooxx-term[2060]: ooxx_pool/s1 200 {trustd (unknown version) CFNetwork/807.1.3 Darwin/16.1.0 (x86_64)} "GET http://ocsp.int-x3.letsencrypt.org/MFgwVqADAgEAME8wTTBLMAkGBSsOAwIaBQAEFH7maudymrP8%2BKIgZGwWoS1gcQhdBBSoSmpjBH3duubRObemRWXv86jsoQISA5qXFMT5ISpagmnHsXfXtpIF HTTP/1.1"
  24. Dec 2 10:16:56 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET http://www.wooyun.org/favicon.ico HTTP/1.1"
  25. Dec 2 10:17:46 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT dn-linuxcn.qbox.me:443 HTTP/1.1"
  26. Dec 2 10:19:05 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "CONNECT www.bell.ca:443 HTTP/1.1"
  27. Dec 2 10:19:15 ooxx-term[2060]: ooxx_pool/s1 200 {trustd (unknown version) CFNetwork/807.1.3 Darwin/16.1.0 (x86_64)} "GET http://support.typora.io//MEcwRaADAgEAMD4wPDA6MAkGBSsOAwIaBQAEFB0jb44GS5cf3d%2BhFSPhruUCvisbBBQ6moUHEGcotu%2F2vQVBbiDBlNoP3gIBBw%3D%3D HTTP/1.1"
  28. Dec 2 10:23:53 ooxx-term[2060]: ooxx_pool/s1 200 {Mozilla/5.0 (Macintosh; Int el Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36} "GET https://www.iperf.fr/recv/gs.gif?gsver=3.4.0.4&gscmd=hb&gssrvid=GWD-000673&gsuid=80 6453484s4rbw17&gssid=80645348ochre617&pvid=806453487gf4rf17&gsltime=1480674232289&gstmzone=8&rd =4r45p&pld=84&gsst=0&gswh=734 HTTP/1.1"
复制代码


如下是我的输出结果:
  1. cat cu.sh
  2. #!/bin/sh
  3. #
  4. cat cu.txt |sort |uniq|egrep -i 'get|post|connect'|cut -d'"' -f2|cut -d' ' -f2|sort|uniq>out.txt

  5. cat out.txt|grep -i '^http'>http.txt
  6. cat out.txt|grep -iv '^http'>nohttp.txt

  7. cat http.txt|cut -d'/' -f3|sort|uniq|awk -F'.' '{print "."$(NF-1)"."$NF}'|sort|uniq>out1.txt
  8. cat nohttp.txt|cut -d':' -f1|awk -F'.' '{print "."$(NF-1)"."$NF}'>out2.txt

  9. cat out1.txt out2.txt >ooxx.txt
  10. cat ooxx.txt|sort|uniq>result.txt
  11. rm ./out.txt
  12. rm ./http.txt
  13. rm ./nohttp.txt
  14. rm ./out1.txt
  15. rm ./out2.txt
  16. rm ./ooxx.txt
复制代码
  1. sh cu.sh

  2. wc -l result.txt
  3. 16 result.txt

  4. more result.txt
  5. .bell.ca
  6. .chinaunix.net
  7. .comodoca.com
  8. .icloud.com
  9. .img168.net
  10. .imooc.com
  11. .iperf.fr
  12. .ipip.net
  13. .jobbole.com
  14. .letsencrypt.org
  15. .mukewang.com
  16. .qbox.me
  17. .qq.com
  18. .symcd.com
  19. .typora.io
  20. .wooyun.org
复制代码




回复 13# yinyuemi
  1. awk 'match($0,/.*"(GET|POST|CONNECT) ([^ ]+)/,a){match(a[2],/.*(\.[^.]+\.(net|com))/,b);if(!c[b[1]]++)print b[1]}' cu.txt
  2. .icloud.com
  3. .ipip.net
  4. .qq.com
  5. .symcd.com
  6. .chinaunix.net
  7. .mukewang.com
  8. .imooc.com
  9. .comodoca.com
  10. .jobbole.com
  11. .img168.net
复制代码

  1. awk 'match($0,/.*"(GET|POST|CONNECT) ([^ ]+)/,a){match(a[2],/.*(\.[^.]+\.(net|com))/,b);if(!c[b[1]]++)print b[1]}' cu.txt|wc -l
  2. 11
复制代码


回复 5# moperyblue
  1. awk '$(NF-2)~/get|post|connect/{match($(NF-1),/(http:\/\/)?[^/]*((\.[^/]*){2})[/:].*/,a)}!b[a[2]]++{print a[2]}' IGNORECASE=1 cu.txt
  2. .icloud.com
  3. .ipip.net
  4. .qq.com
  5. .symcd.com
  6. .chinaunix.net
  7. .mukewang.com
  8. .imooc.com
  9. .comodoca.com
  10. .jobbole.com
  11. .img168.net
  12. .letsencrypt.org
  13. .wooyun.org
  14. .qbox.me
  15. .bell.ca
  16. .typora.io
复制代码
  1. awk '$(NF-2)~/get|post|connect/{match($(NF-1),/(http:\/\/)?[^/]*((\.[^/]*){2})[/:].*/,a)}!b[a[2]]++{print a[2]}' IGNORECASE=1 cu.txt|wc -l
  2. 15
复制代码

回复 6# sunzhiguolu




  1. perl -ne '{$h{"$1\n"}++ if(/((?>\.\w+){2})(?=:|\/)/)}END{print keys %h}' cu.txt
  2. .qbox.me
  3. .mukewang.com
  4. .typora.io
  5. .iperf.fr
  6. .ipip.net
  7. .symcd.com
  8. .wooyun.org
  9. .imooc.com
  10. .jobbole.com
  11. .img168.net
  12. .qq.com
  13. .bell.ca
  14. .comodoca.com
  15. .letsencrypt.org
  16. .icloud.com
  17. .chinaunix.net
复制代码
  1. perl -ne '{$h{"$1\n"}++ if(/((?>\.\w+){2})(?=:|\/)/)}END{print keys %h}' cu.txt|wc -l
  2. 16

  3. 您的结果准确无误,唯在下不才,用不起perl而已,非是对语言有偏见,此事需讲明。对仁兄的宽广胸襟,在下深感敬佩,如有失礼之处,忘您勿怪责个。
复制代码



论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
49 [报告]
发表于 2016-12-06 11:16 |只看该作者
本帖最后由 sunzhiguolu 于 2016-12-06 12:27 编辑

回复 21# 方兆国儿











论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
50 [报告]
发表于 2016-12-06 11:24 |只看该作者
方兆国儿 发表于 2016-12-05 22:11
回复 6# sunzhiguolu

亦要感谢您的回复。测试结果显示,数据存在缺漏(与我计算的相差90多行)

为了awk,手足都放弃了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP