免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3196 | 回复: 2
打印 上一主题 下一主题

做蜘蛛写了一个匹配链接的正则~ [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-11-23 20:43 |只看该作者 |倒序浏览
看还有啥情况没考虑到的
r'<a.*?href\s*=\s*[\'"\s]*(.*?)(?:[\'">]|$)'
准备做个舆情网站www.windowdata.com

代码:
----------------------------------------------------------------------------------------------------------------
# -*- coding: gbk -*-

import re

content="""
<a href=11111>11111</a>
<a href="222">222</a>
<a href='333'>333</a>
<a href=         '444'     >444</a>
<a href=         555     >555</a>
<a href=         666
<a id="a_comment" href="#FeedBack" Title = "评论">
<a class="a_edit" href="http://writeblog.csdn.net/PostEdit.aspx?entryId=2011046" title="编辑">编辑</a>
<a href='m&#97;ilto&#58;webmaster&#64;csdn&#46;net?subject=Article%20Report!!!&body=Author:whycadi%0D%0AURL:http://blog.csdn.net/ArticleCont ... amp;Entryid=2011046>举报</a>
<a href=         777.777.777.com"""
ret=re.findall(r'<a.*?href\s*=\s*[\'"\s]*(.*?)(?:[\'">]|$)',content)
print "\r\n".join(ret)

[ 本帖最后由 ybbqy 于 2009-11-23 21:06 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-11-24 04:52 |只看该作者
<a
  href="#">我换行</a>

论坛徽章:
0
3 [报告]
发表于 2009-11-25 11:46 |只看该作者
也可以试试用BeautifulSoup实现
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP