Chinaunix
标题:
请教lxml.html中parse gb18030编码的文件 不出现body element
[打印本页]
作者:
SNYH
时间:
2011-04-25 16:26
标题:
请教lxml.html中parse gb18030编码的文件 不出现body element
本帖最后由 SNYH 于 2011-04-25 16:28 编辑
import .....
url = 'http://bbs.chinaunix.net/viewthread.php?tid=2309181&extra=page%3D1'
f = urllib.urlopen(url)
content = f.read().decode('gb18030').encode('utf-8')
tree = lxml.html.parse(StringIO(content))
print lxml.html.tostring(tree)
复制代码
也尝试过lxml.html.formstring等方式.
但每次都只能解析出一个只带title的格式
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head><title>请教lxml.html中parse gb18030编码的文件 不出现body element</title></head></html>
复制代码
如果把url的内容先保存成一个文件,然后解析也可以正常解析.
试过纯英文的html可以正常解析
另外urllib 似乎很不好用?
经常出现 Name or service not known 抛出IO异常
(这个可能是校园网的网络不行导致不能解析dns)
刚接触python
以前用perl的HTML::TreeBuilder 直接就拿来用 根本就没不知道还会出现不能解析的问题..
lxml弄了快一天还没搞定...
请各位前辈指点一二
作者:
SNYH
时间:
2011-04-25 16:37
如果不进行decode().encode() 可以读取到更多的element
但如果碰到中文地方就会出现
UnicodeEncodeError: 'ascii' codec can't encode characters in position 4-6: ordinal not in range(128)
复制代码
错误
具体可将print lxml.html.tostring(tree)
该为
for i in tree.iter():print i
查看
作者:
SNYH
时间:
2011-04-26 12:05
改用html5lib 或者 BeautifulSoup做 parser
就没有问题了...
可能是 lxml自带的html parser不是很完善吧...
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2