123 4 / 4 页下一页

python 有处理unicode转义的函数吗？ [复制链接]

luffy.deng

腰缠万贯

论坛徽章:: 0

11楼 [报告]

发表于 2010-04-03 20:58 |只看该作者

a=['6770','514b']
print u''.join([unichr(int(i,16)) for i in a])

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

12楼 [报告]

发表于 2010-04-03 21:26 |只看该作者

楼主要转的是html实体，不是纯粹的unicode，你们两个在乱战啊。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

13楼 [报告]

发表于 2010-04-03 21:45 |只看该作者

什么实体不实体从网页取得的36793这个字符串转换成整数36793就是unicode码值，unichr(36793)就可得到码值代表的字符。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

14楼 [报告]

发表于 2010-04-03 21:56 |只看该作者

回复 12# 3227049

你首先要搞清楚 u'\u6770'不等于网页html里提取的字符串 '0x6770' 。u'\u6770'等于十六制整数0x6770

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

15楼 [报告]

发表于 2010-04-03 22:13 |只看该作者

请问一下，如果是个变量名，前面怎么加u，怎么将它转变过来？

>>> a='\u6770\u514b'
>>> print u a
SyntaxError: invalid syntax
>>> a='\u6770\u514b'
wqjwftcaqr 发表于 2010-04-03 20:20

说句多余的话这种问题都能问出来我这是 ‘唉’。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

16楼 [报告]

发表于 2010-04-03 22:26 |只看该作者

本帖最后由 3227049 于 2010-04-03 22:35 编辑

哎，你看清楚啊，楼主问的是&#x[0-9a-f]+;,&#\d+;这种html实体和ansi的转化，html实体可以在不指定编码的情况下防止乱码的出现，一般wml,excel里出现的比较多，像php之类的都有现成函数转化的，具体应用场景你用opera看看cu的wap页源代码就清楚了。。。。虽然html实体也是基于unicode的实现，但是楼主问的并不是unicode和ansi的转化。。。。这个，你回答的东西和楼主要问的东西。。有点鸡同鸭讲啊。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

17楼 [报告]

发表于 2010-04-04 06:48 |只看该作者

这种html实体和ansi的转化，html实体可以在不指定编码的情况下防止乱码的出现，一般wml,excel里出现的比较多，像php之类的都有现成函数转化的，具体应用场景你用opera看看cu的wap页源代码就清楚了。。。。虽然html实体也是基于unicode的实现，但是楼主问的并不是 unicode和ansi的转化
3227049 发表于 2010-04-03 22:26

我败了。一个hex字符串到unicode字符的转换能扯出这么多东西，什么html实体浏览器都出来了。html里提取出来hex字符串 '0x6770' 怎么得出对应的unicode字符跟编码有毛关系？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

3227049

家境小康

论坛徽章:: 0

18楼 [报告]

发表于 2010-04-04 09:52 |只看该作者

我败了。一个hex字符串到unicode字符的转换能扯出这么多东西，什么html实体浏览器都出来了。html里提取出 ...
luffy.deng 发表于 2010-04-04 06:48

苦笑,如果楼主问的是['6770','514b']怎么转成unicode,那么你说的是没错

但是楼主正文问的是

&#(避免自动转化)x6770;&#(避免自动转化)x514b;

怎么转化成ansi字符窜，说穿了是一个字符窜处理问题，或者说是一个正则问题

你强调的int<->unicode和楼主正文里问的问题根本完全不相干

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

19楼 [报告]

发表于 2010-04-04 10:00 |只看该作者

本帖最后由 luffy.deng 于 2010-04-04 10:09 编辑

我的妈呀你建个html文件里面写上‘&#29256’ 浏览器会负责转义为版。
但是python从html源文件里读出'29256'这个字符串是不会被转义的，对于python来说这是一个字符串等价于 5个整数序列。python字符串转义你要在编码时指定 u\u29256, 就像你在html编码时指定&#29256那样。这跟html源文件是gbk 还是utf8或者其他编码无关。你写的