免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3175 | 回复: 0
打印 上一主题 下一主题

一个简单的python程序:得到网页中的所有连接 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-09-24 18:31 |只看该作者 |倒序浏览

#filename:URLLister.py
from sgmllib import SGMLParser

class URLLister(SGMLParser):        #注意这里的处理html的类是继承了SGMLParser类的。。。
        def reset(self):
                SGMLParser.reset(self)
                self.urls = []

        def start_a(self,attrs):        #这里的是找的所有的标签。
                href = [v for k,v in attrs if k=='href']                #这里的语法很特别,返回的是一个列表
                if href:
                        self.urls.extend(href)
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
#这是一个文件读取的类FileRead.py
def readFile(filename):
        data=""
        #f=file("D:\书籍\linux\我的linux备份\新增\xinhua.htm")
        f=file(filename)
        while True:
                line=f.readline()
                if len(line)==0:
                        break
                data+=line
        f.close()
        return data
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
#test_urllister.py
from URLLister import URLLister                #里面有重要的关于网页的监听
import urllib
from FileRead import readFile      

#usock= urllib.urlopen("
http://www.baidu.com
")                #因为好像禁止读取网络的数据,所以暂时使用静态文件进行测试

parser=URLLister()                #这里是使用了一个关于网页文件内容的监听,查找到全部的标签

#parser.feed(usock.read())

text=readFile(r"D:\书籍\linux\我的linux备份\新增\xinhua.htm")
parser.feed(text)
#usock.close()
parser.close()
for url in parser.urls:
        print url


本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/86783/showart_2059396.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP