免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6127 | 回复: 5
打印 上一主题 下一主题

python3.3byte.decode时常出现中文utf8解码失败,还有人遇到过嘛? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-12-23 17:20 |只看该作者 |倒序浏览

从android系统(厂商提供的服务)发出的utf8字符串,python3.3收到以后调用decode("utf8",“strick")时常报异常,例如”涂“字,utf8表示为E6B682,就解不了。还有部分以0xE8打头的,比如”连“字,也解不了。系统是win7+sp1。

论坛徽章:
0
2 [报告]
发表于 2013-12-23 17:34 |只看该作者
你这“从android系统(厂商提供的服务)发出的”应该不是utf8字符串(符合某协议的二进制?)

论坛徽章:
0
3 [报告]
发表于 2013-12-23 18:08 |只看该作者
回复 2# remyzane

我把二进制保存了看了,是合法的。像”涂“字,utf8表示为E6 B6 82,在里面表示是正确的。python解码raise异常。

   

论坛徽章:
0
4 [报告]
发表于 2013-12-23 18:58 |只看该作者
>>> tu = '涂'.encode('utf8')
>>> tu
b'\xe6\xb6\x82'
>>> tu.decode('utf8')
'涂'

你确定那个E6B682是b'\xe6\xb6\x82'?
还有你确定是b'\xe6\xb6\x82'报错吗,而不是它前面有什么特殊字符?

论坛徽章:
0
5 [报告]
发表于 2013-12-25 10:37 |只看该作者
我已经用c语言自己转码了

论坛徽章:
0
6 [报告]
发表于 2013-12-27 10:29 |只看该作者
可以试试gb18030的汉字编码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP