免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5317 | 回复: 11
打印 上一主题 下一主题

请教一个string.replace()的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-05-15 16:24 |只看该作者 |倒序浏览
我使用Python 3.2.2从网页上抓取一段C代码,代码中有如下代码:
#include <stdio.h>
用http.client.HTTPConnection请求页面后,此段代码变为如下:
#include &lt;stdio.h&gt;

整个页面html代码已经使用正则表达式进行处理了,剩下的就是把"&lt;"和"&gt;"替换为"<"和">"
问题出现了,很诡异:
string = string.replace("&lt;","<")
string = string.replace("&gt;",">")

结果整个代码#include &lt;stdio.h&gt;都没了

如果改为
string = string.replace("&lt;","a")
string = string.replace("&gt;","a")
则代码被替换为#include astdio.ha,执行正确

求解!快要崩溃了!
十分感谢各位大虾!!!

论坛徽章:
0
2 [报告]
发表于 2012-05-15 16:45 |只看该作者
本帖最后由 anonymous0502 于 2012-05-15 16:46 编辑

试了下没有发现有这样的问题
  1. >>> a=r'#include &lt;stdio.h&gt;'
  2. >>> a
  3. '#include &lt;stdio.h&gt;'
  4. >>> a.replace('&lt;','<')
  5. '#include <stdio.h&gt;'
  6. >>> a.replace('&gt;','>')
  7. '#include &lt;stdio.h>'
  8. >>> a=a.replace('&lt;','<')
  9. >>> a=a.replace('&gt;','>')
  10. >>> a
  11. '#include <stdio.h>'
复制代码

论坛徽章:
0
3 [报告]
发表于 2012-05-15 17:37 |只看该作者
本帖最后由 whosy 于 2012-05-15 17:50 编辑

回复 2# anonymous0502
对啊,直接在IDLE中填一个字符串来测试是没有问题的,但是一旦到程序中就有问题了。
把我写的程序贴出来一部分吧:
  1. import re
  2. import http.client
  3. import logging
  4. import os
  5. from os.path import join

  6. Error = (
  7.     {
  8.         0 : "ok" ,
  9.         1 : "error" ,
  10.         2 : "connection failed" ,
  11.         3 : "decode failed" ,
  12.         4 : "file operate error"
  13.         }
  14.     )

  15. class HttpDownload:
  16.     def __init__(self, hostname = r"127.0.0.1"):
  17.         self.hostname = hostname
  18.         #创建正则表达式对象,用来抽取网页中的代码
  19.         self.Rex1 = re.compile(r'(?<=sourcefirst).+(?=sourcelast)',re.DOTALL)
  20.         self.Rex2 = re.compile(r'(?<=</a>)[^<>]+(?=</div>)', re.IGNORECASE)
  21.         
  22.     def Start(self, HttpPath, DstPath):
  23.         if os.path.exists(DstPath):
  24.             return 0
  25.         #连接服务器
  26.         conn = http.client.HTTPConnection(self.hostname)
  27.         
  28.         #将路径中的空格替换为%20编码
  29.         path = HttpPath.replace(r" ",r"%20")
  30.         print("path = " + path)
  31.         conn.request("GET",path)
  32.         response = conn.getresponse()

  33.         #若URL请求不成功,则返回错误
  34.         print("response.status = " , response.status)
  35.         if response.status != 200:
  36.             conn.close()
  37.             return 2
  38.         
  39.         content = response.read()
  40.         conn.close()
  41.         try:
  42.             content = content.decode("utf-8")
  43.             encode = "utf-8"
  44.         except UnicodeDecodeError:
  45.             content = content.decode("latin_1")
  46.             encode = "latin_1"
  47.         except Exception:
  48.             return 3
  49.         
  50.         string = str(content)
  51.         #第一次匹配
  52.         match = self.Rex1.search(string)
  53.         if not match:
  54.             return 0
  55.         
  56.         string = str(match.group())
  57.         #替换字符
  58.         #string = string.replace("&lt;","<")#就这两行出现问题
  59.         #string = string.replace("&gt;",">")        
  60.         #第二次匹配
  61.         codes = self.Rex2.findall(string)

  62.         if not codes:
  63.             print("No codes")

  64.         #保存文件
  65.         if DstPath:
  66.             fd = open(file = DstPath, mode = 'w', encoding = encode)
  67.             for i in codes:
  68.                 fd.write(i)
  69.                 fd.write('\r\n')
  70.             fd.close()
  71.         return 0
复制代码
求教!

论坛徽章:
0
4 [报告]
发表于 2012-05-16 08:54 |只看该作者
用调试工具单步运行看看变量的值啊,或者在你觉得有问题的地方前后打印变量的值出来看看。

论坛徽章:
0
5 [报告]
发表于 2012-05-16 09:09 |只看该作者
回复 4# anonymous0502


    大哥,把那两行注释掉之后,处理过的字符串写到文件中就有#include &lt;stdio.h&gt;这一行,一旦这两行代码启用,则就没有了#include &lt;stdio.h&gt;这一行。
那我再调试下吧

论坛徽章:
0
6 [报告]
发表于 2012-05-16 10:33 |只看该作者
本帖最后由 anonymous0502 于 2012-05-16 12:16 编辑

64行再次过滤这里的问题吧?
  1. >>> Rex2 = re.compile(r'(?<=</a>)[^<>]+(?=</div>)', re.IGNORECASE)
  2. >>> a='#include &lt;stdio.h&gt;'
  3. >>> v=Rex2.findall(a)
  4. >>> v
  5. []
  6. >>> a='#include <stdio.h>'
  7. >>> v=Rex2.findall(a)
  8. >>> v
  9. []
复制代码
我这里模拟得也不正确,文本前后还有其他的内容吧,正反向预搜索用得不熟,还不太会造数据来模拟。

论坛徽章:
0
7 [报告]
发表于 2012-05-16 13:36 |只看该作者
回复 6# anonymous0502


    实际用于测试的数据是这样的,我给你截取一段
  1. <div class="parity0 source"><a href="#l29" id="l29">    29</a> #include &lt;stdio.h&gt;
  2. </div>
  3. <div class="parity1 source"><a href="#l30" id="l30">    30</a> #include &lt;sys/strlog.h&gt;
  4. </div>
复制代码
如果在IDLE中构造并测试的话是可以的

论坛徽章:
0
8 [报告]
发表于 2012-05-16 13:53 |只看该作者
似乎发现问题了,把上面的测试代码存到文本文件中,然后读取,结果如下:
  1. >>> fd  = open("c:\\1.txt")
  2. >>> string = fd.read()
  3. >>> fd.close()
  4. >>> string
  5. '<div class="parity0 source"><a href="#l29" id="l29">    29</a> #include &lt;stdio.h&gt;\n</div>\n<div class="parity1 source"><a href="#l30" id="l30">    30</a> #include &lt;sys/strlog.h&gt;\n</div>'
  6. >>> string = string.replace("&lt;","<")
  7. >>> string = string.replace("&gt;",">")
  8. >>> string
  9. '<div class="parity0 source"><a href="#l29" id="l29">    29</a> #include <stdio.h>\n</div>\n<div class="parity1 source"><a href="#l30" id="l30">    30</a> #include <sys/strlog.h>\n</div>'
  10. >>> rex = re.compile(r"(?<=</a>)[^<>]+(?=</div>)", re.I)
  11. >>> ss = rex.findall(string)
  12. >>> ss
  13. []
复制代码
估计是换行符'\n'的问题,我再测试下

论坛徽章:
0
9 [报告]
发表于 2012-05-16 14:12 |只看该作者
好像是Rex2这个正则表达式的问题,我用替换后得到的文本在正则表达式工具中测试匹配不到任何结果

论坛徽章:
0
10 [报告]
发表于 2012-05-16 14:17 |只看该作者
本帖最后由 anonymous0502 于 2012-05-16 14:37 编辑
  1. Rex2 = re.compile(r'(?<=</a>).*?(?=</div>)', re.IGNORECASE|re.M|re.DOTALL)
复制代码
这样好像可以吧,正则还不太熟,你看看对不对。

(?<=</a>)(.*)?(?=</div>)这样写用测试工具测好像也可以,但是在python中会报错,不清楚原因。


是self.Rex2 = re.compile(r'(?<=</a>)[^<>]+(?=</div>)', re.IGNORECASE)这个正则表达式问题吧,替换后得到的数据是这样的:
<div class="parity0 source"><a href="#l29" id="l29">    29</a> #include <stdio.h>
</div>
<div class="parity1 source"><a href="#l30" id="l30">    30</a> #include <sys/strlog.h>
</div>

(?<=</a>)[^<>]+(?=</div>)这个表达式不是不对了吗?</a>和</div>之间除开<>号之外的一些字符串,那不是永远匹配不到你要的结果?是这样吧?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP