免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 20319 | 回复: 3
打印 上一主题 下一主题

已解决:beautifulsoup抓取中文内容乱码的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-06-04 11:22 |只看该作者 |倒序浏览
本帖最后由 lnzfm 于 2013-06-04 13:43 编辑

网上很多资料说soup设置gb18030编码可以解决乱码问题,可是我的代码仍然出中万能现乱码,谁能帮我分析下原因


# -*- coding: utf-8 -*-
import urllib2
import sys
from BeautifulSoup import BeautifulSoup
req = urllib2.Request("http://www.aizhan.com/siteall/www.ip138.com/")
f = urllib2.urlopen(req)
#content = f.read().decode('UTF-8').encode('GBK')  //网页抓取内容,显示中文正常
content = f.read()
soup = BeautifulSoup(content,fromEncoding="gb18030") //使用gb18030编码问题仍没解决
for gg in soup.findAll('div',{'class':'box_17'})[1]:
          print  gg


论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
2 [报告]
发表于 2013-06-04 12:06 |只看该作者
BeautifulSoup(content.decode('gb2312','ignore'))  试试这个

论坛徽章:
0
3 [报告]
发表于 2013-06-04 12:09 |只看该作者
回复 1# lnzfm

抱歉,还是不行

   

论坛徽章:
0
4 [报告]
发表于 2013-06-04 13:42 |只看该作者
我明白了
表面上看起来从BeautifulSoup解析后得到的soup,打印出来是乱码,但是实际上其本身已经是,正确的(从原始的GB2312编码)解析(为Unicode)后的了。
之所以乱码,那是因为,打印soup时,调用的是__str__,其默认是UTF-8,所以输出到GBK的cmd中,才显示是乱码。

这个帖子里分析的很详细,可供参考
http://www.crifan.com/beautifuls ... t_print_messy_code/

多谢大家
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP