免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6171 | 回复: 0
打印 上一主题 下一主题

python中怎样从文本中识别链接? [复制链接]

论坛徽章:
0
1 [报告]
发表于 2006-09-05 09:47 |显示全部楼层

  1. from sgmllib import SGMLParser

  2. class URLLister(SGMLParser):
  3.         def reset(self):
  4.                 SGMLParser.reset(self)
  5.                 self.urls = []

  6.         def start_a(self, attrs):
  7.                 href = [v for k, v in attrs if k=='href']
  8.                 if href:
  9.                         self.urls.extend(href)

  10. if __name__ == "__main__":
  11.         import urllib
  12.         usock = urllib.urlopen("http://diveintopython.org/")
  13.         parser = URLLister()
  14.         parser.feed(usock.read())
  15.         parser.close()
  16.         usock.close()
  17.         for url in parser.urls: print url
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP