- 论坛徽章:
- 0
|
本帖最后由 lnzfm 于 2013-06-04 13:43 编辑
网上很多资料说soup设置gb18030编码可以解决乱码问题,可是我的代码仍然出中万能现乱码,谁能帮我分析下原因
# -*- coding: utf-8 -*-
import urllib2
import sys
from BeautifulSoup import BeautifulSoup
req = urllib2.Request("http://www.aizhan.com/siteall/www.ip138.com/")
f = urllib2.urlopen(req)
#content = f.read().decode('UTF-8').encode('GBK') //网页抓取内容,显示中文正常
content = f.read()
soup = BeautifulSoup(content,fromEncoding="gb18030") //使用gb18030编码问题仍没解决
for gg in soup.findAll('div',{'class':'box_17'})[1]:
print gg
|
|