免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1916 | 回复: 0
打印 上一主题 下一主题

python 字符集转换 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-12-23 03:36 |只看该作者 |倒序浏览
如果一次遇到:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 这样的错误,然后到网上找找解决方案可以接受,如果多次遇到这样的问题,那就是自己的问题了。
web开发,数据从各处(如果不明确encode)收集到业务层(指明是utf8)处理,往往会有因各个源字符集不同导致处理失败的情况,就比如上面这个错误。
到网上一看,python字符集的处理大家一致感觉还是挺麻烦的,还是先来看看http://en.wikipedia.org/wiki/Character_encoding .现在要关心的还是该如何正确转换中文和UTF8,解决开始的问题。
gb2312  |
gbk     |    unicode
big5    |
...     |
       utf8   

gb2312,gbk,big5等要转换为utf8,则要先到(decode)unicode,再到(encode)utf8:

C1 0 1 2 3 4 6 7 8 9 A B C D E F
A   痢 立 粒 沥 隶 力 璃 哩 俩 联 莲 连 镰 廉 怜
B 涟 帘 敛 脸 链 恋 炼 练 粮 凉 梁 粱 良 两 辆 量
C 晾 亮 谅 撩 聊 僚 疗 燎 寥 辽 潦 了 撂 镣 廖 料
D 列 裂 烈 劣 猎 琳 林 磷 霖 临 邻 鳞 淋 凛 赁 吝
E 拎 玲 菱 零 龄 铃 伶 羚 凌 灵 陵 岭 领 另 令 溜
琉 榴 硫 馏 留 瘤 流 柳 六 龙 聋 咙 笼 窿
查gbk表知汉字“刘”的gbk码是'\xc1\xf5',首先用decode到unicode:
>>> '\xc1\xf5'.decode('gbk')
u'\u5218'
再由unicode到utf8:
>>> u'\u5218'.encode('utf8')
'\xe5\x88\x98'    ->1
>>>
在utf8为默认的系统上看看“刘”的utf8:
>>> "刘"
'\xe5\x88\x98'    ->2
和1对得上,再来看看在gbk为默认的系统上看看“刘”的gbk:
>>> "刘"
'\xc1\xf5'
>>>
其他的也就类似了,知道了这个关系后,字符串编码的转换就不再难做了。
回到开头的问题,'ascii' codec can't decode byte 0xe6,说明ascii不认识0xe6...
encode:http://www.tutorialspoint.com/python/string_encode.htm
decode:http://www.tutorialspoint.com/python/string_decode.htm







您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP