- 论坛徽章:
- 0
|
如果一次遇到:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 这样的错误,然后到网上找找解决方案可以接受,如果多次遇到这样的问题,那就是自己的问题了。 web开发,数据从各处(如果不明确encode)收集到业务层(指明是utf8)处理,往往会有因各个源字符集不同导致处理失败的情况,就比如上面这个错误。 到网上一看,python字符集的处理大家一致感觉还是挺麻烦的,还是先来看看http://en.wikipedia.org/wiki/Character_encoding .现在要关心的还是该如何正确转换中文和UTF8,解决开始的问题。 gb2312 | gbk | unicode big5 | ... | utf8
gb2312,gbk,big5等要转换为utf8,则要先到(decode)unicode,再到(encode)utf8:
C1 0 1 2 3 4 5 6 7 8 9 A B C D E F
A 痢 立 粒 沥
隶 力 璃 哩 俩 联 莲 连 镰 廉 怜
B 涟 帘 敛 脸 链 恋 炼 练 粮 凉 梁 粱 良 两 辆 量
C 晾 亮 谅 撩 聊 僚 疗 燎
寥 辽 潦 了 撂 镣 廖 料
D 列 裂 烈 劣 猎 琳 林 磷 霖 临 邻 鳞 淋 凛 赁 吝
E 拎 玲 菱 零 龄 铃 伶 羚 凌 灵 陵
岭 领 另 令 溜
F 琉 榴 硫 馏 留 刘 瘤 流 柳 六 龙 聋 咙 笼 窿 查gbk表知汉字“刘”的gbk码是'\xc1\xf5',首先用decode到unicode: >>> '\xc1\xf5'.decode('gbk') u'\u5218' 再由unicode到utf8: >>> u'\u5218'.encode('utf8') '\xe5\x88\x98' ->1 >>> 在utf8为默认的系统上看看“刘”的utf8: >>> "刘" '\xe5\x88\x98' ->2 和1对得上,再来看看在gbk为默认的系统上看看“刘”的gbk: >>> "刘" '\xc1\xf5' >>> 其他的也就类似了,知道了这个关系后,字符串编码的转换就不再难做了。 回到开头的问题,'ascii' codec can't decode byte 0xe6,说明ascii不认识0xe6... encode:http://www.tutorialspoint.com/python/string_encode.htm decode:http://www.tutorialspoint.com/python/string_decode.htm
|
|