免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1217 | 回复: 5
打印 上一主题 下一主题

如何寻找相关的域名?? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-12-13 12:59 |只看该作者 |倒序浏览
<tr bgcolor="#E6F2E7">
        <td height="4" ><a href="http://www.mtvchinese.com/">MTV中文网站</a></td>
        <td height="8" > <a href="http://www.mtvchina.com/index.html">MTV-China </a> </td>
        <td height="8" ><a href="http://www.f130.net">flash音乐网</a></td>
        <td height="4" ><a href="http://www.9flash.com/"

    target="_blank">9flash</a></td>
      </tr>
      <tr bgcolor="#E6F2E7">
        <td height="4" ><a href="http://www.ting98.com/">听酒吧音乐网</a></td>
        <td height="4" ><a href="http://www.vv66.com">百酷音乐厅</a></td>
        <td height="4" ><a href="http://www.st020.cn/"><font color="#ff0000">视听在线</font></a></td>
        <td height="4" ><a href="http://www.t1314.com/music/index.htm">听一生一世</a></td>
      </tr>
      <tr bgcolor="#E6F2E7">
        <td height="4" > <a href="http://www.hao123.com/daquan/14mtvtop.htm">MTV TOP500</a></td>
        <td height="4" ><a href="http://www.guqu.net/">中国古曲网</a></td>
        <td height="4" ><a href="http://www.listenyou.com/">印象中国</a></td>
        <td height="4" ><a href="cainiao/02.htm">如何下载mp3</a><a href="http://www.sorock.com/"></a></td>   


我想把相关的域名,如www.guqu.net 等表达出来,不知道该如何写正则表达式呢?如写成这样
www.guqu.net    中国古曲网
www.vv66.com   百酷音乐厅

论坛徽章:
0
2 [报告]
发表于 2006-12-13 13:28 |只看该作者
try
  1. cat urfile |grep 'href=' |sed 's,.*href="\([^"]*\)"[^>]*>\([^<]*\).*,\1 \2,'
复制代码

论坛徽章:
0
3 [报告]
发表于 2006-12-13 13:49 |只看该作者
原帖由 awk就是awp加ak 于 2006-12-13 13:28 发表
try
  1. cat urfile |grep 'href=' |sed 's,.*href="\([^"]*\)"[^>]*>\([^<]*\).*,\1 \2,'
复制代码



cat urfile |grep 'href=' |sed 's,.*href="\([^"]*\)"[^>]*>\([^<]*\).*,\1 \2,'|sed 's/.*href="\(.*\)"/\1/'

[ 本帖最后由 cocoa1227 于 2006-12-13 14:33 编辑 ]

论坛徽章:
0
4 [报告]
发表于 2006-12-13 15:10 |只看该作者
cat filename |awk -F[\>\<] 'OFS="\n"{if(NF>=print $4,$5 }'|awk -F[\"//] 'ORS=" "{if(NR%2!=0) print $4;else print $0"\n" }'

效率差点 MS还算符合要求呵呵 有更简单的跟上看看

论坛徽章:
0
5 [报告]
发表于 2006-12-13 16:50 |只看该作者
sed 's,.*href="\([^"]*\)"[^>]*>\([^<]*\).*,\1 \2,'

这个可以解析一下是什么意思吗??不是太明白

论坛徽章:
0
6 [报告]
发表于 2006-12-13 17:09 |只看该作者
弄明白了,哈哈,谢谢!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP