免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5411 | 回复: 3
打印 上一主题 下一主题

py正则表达式捕获img标签并返回其src,内涵中文的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-10-12 15:55 |只看该作者 |倒序浏览
希望标题够明确了:wink:
是这样的,想把一些博客的博文保存到本地,有时候博文里面包含图片,那么图片就要单独保存到本地的一个文件夹,再把本地博文的静态html文件中的相关img标签字段做修改了。

比如QQ空间的图片标签如下:
  1. <img alt="图片" src="/qzone/newblog/v5/editor/css/loading.gif" orgsrc="http://b20.photo.store.qq.com/http_imgload.cgi?/rurl4_b=69b8f4b6187888537eebd4537228c5b70b8c4a31940d6a0f7f59a5465a4821cf9274f1adb35ee940564e77e52f2aaf68f36d1164e8d29e12019d9264cb0c6e0a73fce5d8f9fe00a25f80ea375b273b73ef12d8a5"/>
复制代码


现在我想做的是用正则表达式匹配 <img...orgsrc.../>的内容,并且返回
http://b20.photo.store.qq.com/http_imgload.cgi?/rurl4_b=69b8f4b6187888537eebd4537228c5b70b8c4a31940d6a0f7f59a5465a4821cf9274f1adb35ee940564e77e52f2aaf68f36d1164e8d29e12019d9264cb0c6e0a73fce5d8f9fe00a25f80ea375b273b73ef12d8a5


对python不熟悉,而且img标签里面有汉字,不知道怎么实现这个功能呢?

论坛徽章:
0
2 [报告]
发表于 2009-10-12 16:29 |只看该作者
>>> import re
>>> s = '<img alt="图片" src="/qzone/newblog/v5/editor/css/loading.gif" orgsrc="
http://b20.photo.store.qq.com/ht ... 4b6187888537eebd453
7228c5b70b8c4a31940d6a0f7f59a5465a4821cf9274f1adb35ee940564e77e52f2aaf68f36d1164
e8d29e12019d9264cb0c6e0a73fce5d8f9fe00a25f80ea375b273b73ef12d8a5"/>'

>>> print re.findall('orgsrc="(.*?)"',s)

论坛徽章:
0
3 [报告]
发表于 2009-10-13 09:15 |只看该作者
原帖由 smallfish_xy 于 2009-10-12 16:29 发表
>>> import re
>>> s = ''

>>> print re.findall('orgsrc="(.*?)"',s)

谢谢斑竹

其实我是不知道怎么捕获<img...orgsrc.../>这个标签,因为我准备把网络图片下载到本地,比如是img/xxxx.jpg,然后把整个<img...orgsrc.../>标签替换为
<img src="img/xxxx.jpg">

不知道需不需要考虑中文处理的问题呢?
再次谢谢

论坛徽章:
0
4 [报告]
发表于 2009-10-14 16:15 |只看该作者

回复 #3 zzban 的帖子

原来可以这么简单搞定的:
re.findall('<img.*orgsrc.*/>', blog_content, re.I)
呵呵,把这个提取出来后再把orgsrc分割出来就可以了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP