免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2924 | 回复: 2
打印 上一主题 下一主题

Dive Into Python里的一个问题,实在看不懂 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-12-21 17:19 |只看该作者 |倒序浏览
在8.3节里,urllister.py 和 后面调用该模块的代码,不明白
urllister.py如下:

  1. from sgmllib import SGMLParser

  2. class URLLister(SGMLParser):
  3.     def reset(self):                              
  4.         SGMLParser.reset(self)
  5.         self.urls = []

  6.     def start_a(self, attrs):                     
  7.         href = [v for k, v in attrs if k=='href']  
  8.         if href:
  9.             self.urls.extend(href)
复制代码

使用代码过程:
>>> import urllib, urllister
>>> usock = urllib.urlopen("http://diveintopython.org/")
>>> parser = urllister.URLLister()
>>> parser.feed(usock.read())         
>>> usock.close()                     
>>> parser.close()                    
>>> for url in parser.urls: print url

关于urllister.py,书中有说明:
reset 由 SGMLParser 的 __init__ 方法来调用,也可以在创建一个分析器实例时手工来调用。所以如果您需要做初始化,在 reset 中去做,而不要在 __init__ 中做。这样当某人重用一个分析器实例时,会正确地重新初始化。这部分看了sgmllib的代码,明白了

但是,后面说“只要找到一个 <a> 标记,start_a 就会由 SGMLParser 进行调用”,这个怎么也搞不懂,为什么找到<a>后就会自动调用start_a呢?怎么体现出来的?请帮忙解释一下,非常感谢

论坛徽章:
0
2 [报告]
发表于 2007-12-21 17:48 |只看该作者
在执行feed之后,SGMLParser就已经开始进行解析工作了,当分析出一个a标签时,它会查看是否存在a_start这个方法,如果有就调用,没有就继续处理。其它的也类似。看一下源代码就会很容易明白了。

论坛徽章:
0
3 [报告]
发表于 2007-12-21 19:15 |只看该作者
谢谢limodou ,我再看看源码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP