免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3963 | 回复: 6
打印 上一主题 下一主题

Q爬虫入门,正则限定条件,-r ()怎么理解 [复制链接]

论坛徽章:
3
双鱼座
日期:2013-10-26 12:18:05IT运维版块每日发帖之星
日期:2015-08-24 06:20:0015-16赛季CBA联赛之吉林
日期:2016-01-20 14:30:09
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-11-25 10:16 |只看该作者 |倒序浏览
各位老板,请教一个正则问题:

在有个教程中(无法发URL。。。)使用这个 r'src="(.+?\.jpg)" pic_ext'
匹配到的是一个jpg图片地址,前面的src=和后面的pic_ext都不匹配,感觉是一个区域或者条件,只需要限定前后就可以匹配出结果,非常方便
请问这是python的方式呢还是正则自带的方式呢?

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
2 [报告]
发表于 2015-11-25 10:28 |只看该作者
回复 1# gzc1210


    是正则自带

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
3 [报告]
发表于 2015-11-25 10:43 |只看该作者
通过本教程学习正则。

  • Python正则表达式指南
  • 正则表达式re模块详解


无论您刚接触电脑还是一个有经验的程序员,本教程都将有助您学习使用正则表达式。


论坛徽章:
3
双鱼座
日期:2013-10-26 12:18:05IT运维版块每日发帖之星
日期:2015-08-24 06:20:0015-16赛季CBA联赛之吉林
日期:2016-01-20 14:30:09
4 [报告]
发表于 2015-11-25 16:48 |只看该作者
回复 2# substr函数


谢谢~~
可是我木有找到对应的,能否给个链接~

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
5 [报告]
发表于 2015-11-26 13:19 |只看该作者

论坛徽章:
3
双鱼座
日期:2013-10-26 12:18:05IT运维版块每日发帖之星
日期:2015-08-24 06:20:0015-16赛季CBA联赛之吉林
日期:2016-01-20 14:30:09
6 [报告]
发表于 2015-11-26 17:21 |只看该作者
回复 5# substr函数


    谢谢

论坛徽章:
3
双鱼座
日期:2013-10-26 12:18:05IT运维版块每日发帖之星
日期:2015-08-24 06:20:0015-16赛季CBA联赛之吉林
日期:2016-01-20 14:30:09
7 [报告]
发表于 2015-11-27 10:09 |只看该作者
谢谢, 看到这里就明白了
findall with()= [('againinput_tmp', '', '069e0d89033b5bb53d07e9b536d3d539b400bce2', 'jpg')]
findall with() len= 1
findall with() [0][0]= againinput_tmp
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP