- 论坛徽章:
- 0
|
在8.3节里,urllister.py 和 后面调用该模块的代码,不明白
urllister.py如下:
- from sgmllib import SGMLParser
- class URLLister(SGMLParser):
- def reset(self):
- SGMLParser.reset(self)
- self.urls = []
- def start_a(self, attrs):
- href = [v for k, v in attrs if k=='href']
- if href:
- self.urls.extend(href)
复制代码
使用代码过程:
>>> import urllib, urllister
>>> usock = urllib.urlopen("http://diveintopython.org/")
>>> parser = urllister.URLLister()
>>> parser.feed(usock.read())
>>> usock.close()
>>> parser.close()
>>> for url in parser.urls: print url
关于urllister.py,书中有说明:
reset 由 SGMLParser 的 __init__ 方法来调用,也可以在创建一个分析器实例时手工来调用。所以如果您需要做初始化,在 reset 中去做,而不要在 __init__ 中做。这样当某人重用一个分析器实例时,会正确地重新初始化。这部分看了sgmllib的代码,明白了
但是,后面说“只要找到一个 <a> 标记,start_a 就会由 SGMLParser 进行调用”,这个怎么也搞不懂,为什么找到<a>后就会自动调用start_a呢?怎么体现出来的?请帮忙解释一下,非常感谢 |
|