免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2472 | 回复: 4
打印 上一主题 下一主题

关于正则表达式的问题。大家帮忙看看 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-02-25 10:49 |只看该作者 |倒序浏览
10可用积分
这是 我写的返回正则所有匹配结果的函数。
def GetRegInfo(res,reg,f=None):
    p = re.compile(reg)
    result= []
    result = p.finditer(res)
    list = []
    for match in result :
        info={}
        if f:
            try:
                info['href']=match.group(1)
                info['list']=match.group(2)
            except:
                pass
            list.append(info)
        else:
            if match.group(1):
                list.append(match.group(1))
            else:
                list.append(match.group(2))
    return list
当res 的 值 等于 http://www.xzqh.org.cn/ONEWS_zq.asp?id=653的HTML代码的时候,
我用正则表达式
reg=ur"([^\x00-\xff]+[市县区镇])"
来匹配里边的地区县信息。但是总是返回 []
请大家帮忙看看。。。。。

最佳答案

查看完整内容

页面返回的是gb2312编码你用ur的正则是unicode,试试换编码看看

论坛徽章:
0
2 [报告]
发表于 2009-02-25 10:49 |只看该作者
页面返回的是gb2312编码
你用ur的正则是unicode,试试换编码看看

论坛徽章:
0
3 [报告]
发表于 2009-02-25 13:37 |只看该作者
谢谢,提醒。问题解决了
根据你的提醒Google了一下。
找到如下:

python 的re模块(即正则表达式模块)默认似乎是用Unicode处理,因此,如果目标文件的编码为GBK(gb2312或cp936,如双狐图形数据的格式)则其匹配结果为空。即下列的语句将得不到任何匹配结果。

        line=inputFile.readline()
        re.search(r'^Layer\sM\s'+'中文匹配词',line):

因此,需要对中文匹配词进行编码转换,即改写上面的语句为:

        keyword=(u'中文匹配词').encode('cp936')

        re.search(r'^Layer\sM\s'+keyword,line):

根据上边这些解决。
谢谢 给分

论坛徽章:
0
4 [报告]
发表于 2009-02-25 13:45 |只看该作者
如何给分啊。。找不到结贴的地方。。。。

论坛徽章:
0
5 [报告]
发表于 2009-02-25 13:55 |只看该作者
谢谢了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP