论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-02-25 10:49 |只看该作者 |倒序浏览

10可用积分

这是我写的返回正则所有匹配结果的函数。
def GetRegInfo(res,reg,f=None):
p = re.compile(reg)
result= []
result = p.finditer(res)
list = []
for match in result :
      info={}
      if f:
         try:
            info['href']=match.group(1)
            info['list']=match.group(2)
         except:
            pass
         list.append(info)
      else:
         if match.group(1):
            list.append(match.group(1))
         else:
            list.append(match.group(2))
return list
当res 的值等于 http://www.xzqh.org.cn/ONEWS_zq.asp?id=653的HTML代码的时候，
我用正则表达式
reg=ur"([^\x00-\xff]+[市县区镇])"
来匹配里边的地区县信息。但是总是返回 []
请大家帮忙看看。。。。。

最佳答案

xiaoyu9805119

查看完整内容

页面返回的是gb2312编码你用ur的正则是unicode，试试换编码看看

文库|博客

xiaoyu9805119

富足长乐

论坛徽章:: 0

2楼 [报告]

发表于 2009-02-25 10:49 |只看该作者

页面返回的是gb2312编码
你用ur的正则是unicode，试试换编码看看

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jiangnanandi

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2009-02-25 13:37 |只看该作者

谢谢，提醒。问题解决了
根据你的提醒Google了一下。
找到如下：

python 的re模块（即正则表达式模块）默认似乎是用Unicode处理，因此，如果目标文件的编码为GBK（gb2312或cp936，如双狐图形数据的格式）则其匹配结果为空。即下列的语句将得不到任何匹配结果。

      line=inputFile.readline()
      re.search(r'^Layer\sM\s'+'中文匹配词',line):

因此，需要对中文匹配词进行编码转换，即改写上面的语句为：

      keyword=(u'中文匹配词').encode('cp936')

      re.search(r'^Layer\sM\s'+keyword,line):

根据上边这些解决。
谢谢给分