Chinaunix

标题: 请教lxml.html中parse gb18030编码的文件 不出现body element [打印本页]

作者: SNYH    时间: 2011-04-25 16:26
标题: 请教lxml.html中parse gb18030编码的文件 不出现body element
本帖最后由 SNYH 于 2011-04-25 16:28 编辑

  1. import .....
  2. url = 'http://bbs.chinaunix.net/viewthread.php?tid=2309181&extra=page%3D1'
  3. f = urllib.urlopen(url)
  4. content = f.read().decode('gb18030').encode('utf-8')
  5. tree = lxml.html.parse(StringIO(content))
  6. print lxml.html.tostring(tree)
复制代码
也尝试过lxml.html.formstring等方式.
但每次都只能解析出一个只带title的格式
  1. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  2. <html xmlns="http://www.w3.org/1999/xhtml"><head><title>请教lxml.html中parse gb18030编码的文件 不出现body element</title></head></html>
复制代码
如果把url的内容先保存成一个文件,然后解析也可以正常解析.

试过纯英文的html可以正常解析


另外urllib 似乎很不好用?
经常出现  Name or service not known   抛出IO异常
(这个可能是校园网的网络不行导致不能解析dns)  


刚接触python  
以前用perl的HTML::TreeBuilder 直接就拿来用 根本就没不知道还会出现不能解析的问题..
lxml弄了快一天还没搞定...

请各位前辈指点一二
作者: SNYH    时间: 2011-04-25 16:37
如果不进行decode().encode() 可以读取到更多的element
但如果碰到中文地方就会出现
  1. UnicodeEncodeError: 'ascii' codec can't encode characters in position 4-6: ordinal not in range(128)
复制代码
错误

具体可将print lxml.html.tostring(tree)
该为
  for i in tree.iter():print i
查看
作者: SNYH    时间: 2011-04-26 12:05
改用html5lib 或者 BeautifulSoup做 parser
就没有问题了...

可能是 lxml自带的html parser不是很完善吧...




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2