免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3413 | 回复: 5
打印 上一主题 下一主题

python3.4编码问题? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-17 19:29 |只看该作者 |倒序浏览
    如图中的网页,查看源码时有: content="text/html; charset=gbk"

但如下代码去报错:'gbk' codec can't decode byte 0xa9 in position 11957: illegal multibyte sequence
#coding:utf-8

r = r'不能上传网址,见图片'
    try:
        f = request.urlopen(r).read()
        htm = f.decode('gbk')
        for i in pat_chapter.findall(htm):
            print(i)
    except Exception as er:
        print(er)

请大家指点

论坛徽章:
0
2 [报告]
发表于 2015-09-17 19:30 |只看该作者
换成utf-8  gb2312 同样报错

论坛徽章:
0
3 [报告]
发表于 2015-09-17 22:03 |只看该作者
有非法字符,用ignore忽略

htm = f.decode('gbk','ignore')

评分

参与人数 1信誉积分 +10 收起 理由
explist + 10 很给力!

查看全部评分

论坛徽章:
0
4 [报告]
发表于 2015-09-18 00:19 |只看该作者
ma__ 发表于 2015-09-17 22:03
有非法字符,用ignore忽略

htm = f.decode('gbk','ignore')

ok,解决

论坛徽章:
0
5 [报告]
发表于 2015-09-18 17:23 |只看该作者
open一般都是“rb”打开的

论坛徽章:
0
6 [报告]
发表于 2015-10-05 10:32 |只看该作者
python 3  就不需要前面加 #coding:utf-8


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP