1 234 / 4 页下一页

python 有处理unicode转义的函数吗？ [复制链接]

3227049

家境小康

论坛徽章:: 0

21楼 [报告]

发表于 2010-04-04 10:19 |只看该作者

有必要的,读取到的数据肯定是ansi,不encode的话，unicode替换进ansi字符窜,直接爆UnicodeDecodeError.......当然,也可以先把读入数据转成unicode........

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

22楼 [报告]

发表于 2010-04-04 10:25 |只看该作者

对于’29256‘这个字符串ansi编码和 unicode编码有什么不同么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

23楼 [报告]

发表于 2010-04-04 10:43 |只看该作者

本帖最后由 3227049 于 2010-04-04 10:44 编辑

正常的应用场景哪会那么简单

#coding:utf-8
html="版=&# 29256;=&# x7248;".replace(" ","");
import re
_=re.compile('&#(x)?([0-9a-fA-F]+);')
to_str1=lambda s,charset='utf-8':_.sub(lambda result:unichr(int(result.group(2),result.group(1)=='x' and 16 or 10)).encode(charset) ,s)
to_str2=lambda s,charset='utf-8':_.sub(lambda result:unichr(int(result.group(2),result.group(1)=='x' and 16 or 10)) ,s if type(s) is unicode else s.decode(charset))
to_str3=lambda s:_.sub(lambda result:unichr(int(result.group(2),result.group(1)=='x' and 16 or 10)),s)
print 'to_str1',to_str1(html)
print '*'*80
print 'to_str2',to_str2(html)
print '*'*80
print 'to_str3',to_str3(html)
print '*'*80

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

24楼 [报告]

发表于 2010-04-04 10:53 |只看该作者

本帖最后由 luffy.deng 于 2010-04-04 10:58 编辑

我服了应用场景简单不简单跟咱们说的这个问题有关系么？

#coding=utf-8
html="版=&# 29256;=&# x7248;".replace(" ","");
print unichr(int(html[6:11]))
print unichr(int(html[16:20],16))

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

25楼 [报告]

发表于 2010-04-04 11:10 |只看该作者

我也服了，楼主要的是整句的自动替换，不是手工单字转换....

他的需求是类似cu的dz发帖一样

输入版=&#(防转)29256;=&#(防转)x7248;

得到版=版=版

是个字符窜处理问题，不是个字符窜编码问题，而且转化过程中必须encode成ansi或者先整句decode成unicode,不然会出现我上一个例子里to_str3里爆UnicodeDecodeError的现象

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

26楼 [报告]

发表于 2010-04-04 11:15 |只看该作者

我也服了，楼主要的是整句的自动替换，不是手工单字转换....

他的需求是类似cu的dz发帖一样

输入版= ...
3227049 发表于 2010-04-04 11:10

下面这句话是你说的那个意思？我错了你是大牛。

网页上面类似这种的转义 python有函数可以支持吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

27楼 [报告]

发表于 2010-04-04 11:31 |只看该作者

本帖最后由 3227049 于 2010-04-04 11:37 编辑

下面这句话是你说的那个意思？我错了你是大牛。
luffy.deng 发表于 2010-04-04 11:15

这句话有什么问题么?譬如php,直接用原生函数mb_convert_encoding里指定参数HTML-ENTITIES就能转义了,楼主不熟悉python问是否有函数有问题么?他熟悉了还用问么?

另外，楼主问的是

& #x6770;& #x514b;
复制代码
网页上面类似这种的转义 python有函数可以支持吗？

不是

0x6770

0x514b
复制代码
网页上面类似这种的转义 python有函数可以支持吗？

或者

& #x6770;

& #x514b;
复制代码
网页上面类似这种的转义 python有函数可以支持吗？

硕牛筒子，引用的时候请别选择性无视半句

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

28楼 [报告]

发表于 2010-04-04 13:23 |只看该作者

本帖最后由 luffy.deng 于 2010-04-04 15:30 编辑

回复 27# 3227049

python字符串转义不是告诉你了是这个格式u\u6670,对于html里的#x6770这样的字符串，在二楼pywugw 也告诉你有这样的函数 unichr() 你这半天在哪儿叨叨些啥？非得给你个现成的mb_convert_encoding函数你才会用？

且转化过程中必须encode成ansi或者先整句decode成unicode

没有encode照样正常输出。你能告诉我对于‘#x6770’
这样的一个字符串ansi编码和encode编码有什么不同么？不都是‘0x230x780x360x370x370x30’

#coding=utf-8
s=''& #x6770;& #x514b;''
def mb_convert_encoding(s):
return u''.join(unichr(int(i[3:],16)) for i in s.strip(';').split(';'))
print mb_convert_encoding(s)

复制代码

pywugw 发表于 2010-04-02 12:58

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

29楼 [报告]

发表于 2010-04-04 15:21 |只看该作者

本帖最后由 3227049 于 2010-04-04 15:25 编辑

回复 3227049

python字符串转义不是告诉你了是这个格式u\u6670,对于html里的#x6770这样的字符串，在二 ...
luffy.deng 发表于 2010-04-04 13:23

我真是不想回的，但是.......

>>> def mb_convert_encoding(s):... return u''.join(unichr(int(i[3:],16)) for i in s.strip(';').split(';'))
...
>>>
>>> mb_convert_encoding(";;;;")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "<stdin>", line 2, in mb_convert_encoding
File "<stdin>", line 2, in <genexpr>
ValueError: invalid literal for int() with base 16: ''