免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4650 | 回复: 10
打印 上一主题 下一主题

urllib中文问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-03-07 14:54 |只看该作者 |倒序浏览
def inside(net):
        req = urllib2.Request(net)
        con=urllib2.urlopen(req).read()
        return con

定义一个函数,net为输入的网址。
现在是print con是可以读取到中文的内容
但return就不是了

麻烦问下怎么解决

谢谢

论坛徽章:
11
技术图书徽章
日期:2014-03-01 14:44:34天蝎座
日期:2014-05-21 22:11:59金牛座
日期:2014-05-30 17:06:14
2 [报告]
发表于 2012-03-07 15:22 |只看该作者
print con是中文就说明OK了
return con不会改变真实内容

“但return就不是了”是什么意思?请具体点说明

论坛徽章:
0
3 [报告]
发表于 2012-03-07 15:39 |只看该作者
inside('http://www.baidu.com')
'<!doctype html><html><head><meta http-equiv="Content-Type" content="text/html;charset=gb2312"><title>\xb0\xd9\xb6\xc8\xd2\xbb\xcf\xc2\xa3\xac\xc4\xe3\xbe\xcd\xd6\xaa\xb5\xc0     

论坛徽章:
11
技术图书徽章
日期:2014-03-01 14:44:34天蝎座
日期:2014-05-21 22:11:59金牛座
日期:2014-05-30 17:06:14
4 [报告]
发表于 2012-03-07 15:43 |只看该作者
只不过python转义了,依然是中文,该怎么用就怎么用
  1. >>> print '<!doctype html><html><head><meta http-equiv="Content-Type" content="text/html;charset=gb2312"><title>\xb0\xd9\xb6\xc8\xd2\xbb\xcf\xc2\xa3\xac\xc4\xe3\xbe\xcd\xd6\xaa\xb5\xc0'
  2. <!doctype html><html><head><meta http-equiv="Content-Type" content="text/html;charset=gb2312"><title>百度一下,你就知道
  3. >>>
复制代码

论坛徽章:
0
5 [报告]
发表于 2012-03-07 15:46 |只看该作者
定义的列表是list=["搜索","专家"]
想判断list这些是不是都在return的内容里,这应该怎么写好?

论坛徽章:
0
6 [报告]
发表于 2012-03-07 15:56 |只看该作者
本帖最后由 liu.xin 于 2012-03-07 15:56 编辑

我用英语做匹配就可以,但是用中文就不行··············

论坛徽章:
11
技术图书徽章
日期:2014-03-01 14:44:34天蝎座
日期:2014-05-21 22:11:59金牛座
日期:2014-05-30 17:06:14
7 [报告]
发表于 2012-03-07 17:02 |只看该作者
又没明白你是怎么个不行。。。
  1. >>> gb = '\xb0\xd9\xb6\xc8\xd2\xbb\xcf\xc2\xa3\xac\xc4\xe3\xbe\xcd\xd6\xaa\xb5\xc0'
  2. >>> print gb
  3. 百度一下,你就知道
  4. >>> gb.find('百度')
  5. 0
  6. >>> gb.find('知道')
  7. 14
  8. >>> import re
  9. >>> re.search(r'知道', gb)
  10. <_sre.SRE_Match object at 0x02A4F090>
复制代码

论坛徽章:
11
技术图书徽章
日期:2014-03-01 14:44:34天蝎座
日期:2014-05-21 22:11:59金牛座
日期:2014-05-30 17:06:14
8 [报告]
发表于 2012-03-07 17:27 |只看该作者
当然有个重点:匹配字符串和被匹配字符串的编码要一致
比如百度那个页面编码是gb2312,待搜索的字符串必须是gb2312编码或者两者都转为unicode

论坛徽章:
13
双鱼座
日期:2013-10-23 09:30:05数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00程序设计版块每日发帖之星
日期:2016-03-09 06:20:002015亚冠之塔什干火车头
日期:2015-11-02 10:07:452015亚冠之德黑兰石油
日期:2015-08-30 10:07:07数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00数据库技术版块每日发帖之星
日期:2015-08-05 06:20:002015年迎新春徽章
日期:2015-03-04 09:57:09辰龙
日期:2014-12-03 14:45:52酉鸡
日期:2014-07-23 09:46:23亥猪
日期:2014-03-13 08:46:22金牛座
日期:2014-02-11 09:36:21
9 [报告]
发表于 2012-03-08 09:21 |只看该作者

转化下编码就可以了

论坛徽章:
0
10 [报告]
发表于 2012-03-08 21:10 |只看该作者
怎么转呢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP