免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: yihucha
打印 上一主题 下一主题

python 有处理unicode转义的函数吗? [复制链接]

论坛徽章:
0
31 [报告]
发表于 2010-04-04 15:27 |只看该作者
回复  3227049

真是懒的跟你说了mb_convert_encoding只是个示例性的  仅仅是为了说明问题,还用你告诉我 ...
luffy.deng 发表于 2010-04-04 15:24


笑,回答我不是在8楼已经贴了么,别说你没看到

我就觉得这个函数的str和s挺有意思的

# def mb_convert_encoding(str):
#    return u''.join(unichr(int(i[3:],16)) for  i in  s.strip(';').split(';'))
# print mb_convert_encoding(s)

论坛徽章:
0
32 [报告]
发表于 2010-04-04 15:30 |只看该作者
这个是笔误 我承认。

论坛徽章:
0
33 [报告]
发表于 2010-04-04 15:34 |只看该作者
回复  3227049

真是懒的跟你说了mb_convert_encoding只是个示例性的  仅仅是为了说明问题,还用你告诉我 ...
luffy.deng 发表于 2010-04-04 15:24



   
你又选择性无视我23楼贴的东西了,to_str1是encode,to_str2是先decode,to_str3是你鼓吹的直接用unicode替换进ansi,嗯,误人子弟的两个都没问题,你不误人子弟的直接UnicodeDecodeError

论坛徽章:
0
34 [报告]
发表于 2010-04-04 15:37 |只看该作者
我错了   你是对的

论坛徽章:
0
35 [报告]
发表于 2010-04-04 19:03 |只看该作者
我是新手,都不太懂,我采一些网站,里面确实有这样的代码,是什么代码我也不懂。
二位争了半天,我也没有看明白,只知道水平都比我高,我想问:
当我这样去采集网址信息?
  1. def fetch(url):
  2.     while True:
  3.         try:   
  4.             temp=[]
  5.             outtemp=[]
  6.             i=1
  7.             page=urllib.urlopen(url).read()
  8.             pat=re.compile('listmain(.*)<td onclick',flags=16)
  9.             cont=pat.search(page).group(0)
复制代码
cont里有‘&# 24038;&# 36793;’的代码(网址源代码有这样的代码?)这叫什么代码?
是不是我用你们说到的代码,就可以变成中文 写入文本 文件啦?
  1. s="&# 24038;&# 36793;".replace(" ",'') #这边直写会被cu自动替换掉................................

  2. import re

  3. _=re.compile('&#(x)?([0-9a-fA-F]+);')

  4. to_str=lambda s,charset='utf-8':_.sub(lambda result:unichr(int(result.group(2),result.group(1)=='x' and 16 or 10)).encode(charset) ,s)

  5. print to_str(s)
复制代码

论坛徽章:
0
36 [报告]
发表于 2010-04-05 06:53 |只看该作者
本帖最后由 luffy.deng 于 2010-04-05 08:49 编辑

......

论坛徽章:
0
37 [报告]
发表于 2010-04-05 11:11 |只看该作者
htmlentitydefs

论坛徽章:
0
38 [报告]
发表于 2010-04-12 09:52 |只看该作者
深奥。。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP