论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-06-04 17:15 |只看该作者 |倒序浏览

先上代码，再说问题。

# -*- coding: utf-8 -*-
from sgmllib import SGMLParser
class ListName(SGMLParser):
is_data = False
urls = []
# def __init__(self, text):
# self.text = text
def handle_data(self, text):
if text == 'Google.com in English':
self.is_data = True
def start_a(self, attrs):
if self.is_data:
href = [ v for k, v in attrs if k == 'href']
if href:
self.urls.extend(href)
self.is_a = True
def end_a(self):
self.is_a = False
import urllib
url = 'http://www.google.com.hk'
page = urllib.urlopen(url).read()
#x = ListName('Google.com in English')
x = ListName()
#print 'x.text',x.text
x.feed(page)
print x.urls

复制代码

第一个问题：我的意图是，当handle_data发现内容是“Google.com in English”的时候，就提取对应的url，这里设置了一个标志，is_data。
可是实际运行的时候，我发现，提取出来的url，不是对应“Google.com in English”的超链接，而是下一个超链接，这是什么原因？

第二个问题：我想比较中文，比如我写成： if text == '翻译': 这样，就匹配不了了，看来应该是编码问题，应该怎么处理？

第三个问题：我想传入一个参数，用来对比，即提取特定文字对应的url，可是我发现似乎不能定义__init__方法？这是为什么？

文库|博客

t6760915

小富即安

论坛徽章:: 0

2楼 [报告]

发表于 2010-06-04 17:55 |只看该作者

第一个问题：我的意图是，当handle_data发现内容是“Google.com in English”的时候，就提取对应的url，这里设置了一个标志，is_data。

因该是

if 'Google.com in English' in text:
pass

复制代码

第二个问题：我想比较中文，比如我写成： if text == '翻译': 这样，就匹配不了了，看来应该是编码问题，应该怎么处理？

这应该就是编码问题，你的程序文件是什么编码？在==时两边的编码应该一致。

第三个问题：我想传入一个参数，用来对比，即提取特定文字对应的url，可是我发现似乎不能定义__init__方法？这是为什么？

这个你还是写一个工具函数：