平台论坛博客文库

› 论坛 › 程序设计 › Shell › 怎样获取HTML中的URL

12 / 2 页

怎样获取HTML中的URL [复制链接]

wesouler

白手起家

论坛徽章:: 0

11楼 [报告]

发表于 2009-02-19 19:16 |只看该作者

awk -v RS="</a>" '$1=$1{print $0"</a>"}' file|perl -p -e 'my($href,$word)=m/<a href="(.+?)".*>([^\s]+?)<.*/;$_="$href $word\n";'
分解一下：
1.把</a>做为分隔符，$1=$1去掉多余的符号，输出所有内容并加上</a>结尾
2.'my($href,$word)=m/<a href="(.+?)".*>([^\s]+?)<.*/;把 href=""中的作为参数$href,></之间的作为参数$word
3.$_="$href $word\n";'输出$href,$word

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 怎样获取HTML中的URL

怎样获取HTML中的URL [复制链接]

浏览过的版块