免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3786 | 回复: 4
打印 上一主题 下一主题

python自动抓取网页图片问题 [复制链接]

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-11-29 18:00 |只看该作者 |倒序浏览
有时候会经常浏览某个网站的图片,一个一个点击下载太慢了,于是想用python写个自动脚本下载,使用urllib,urllib2,sgmllib模块,分析网页内容使用
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
page = opener.open(self.url).read()
可以通过sgmllib.SGMLParser分析出超链接,然后使用正则表达式获取图片的地址,但问题是,比如一个网页上命名有一个图片,但是在网页源码中却看不到这个图片的链接,使用chrome的审查元素可以查看到,但是查看网页源码里面却没有,求高手指点一二。

论坛徽章:
4
水瓶座
日期:2013-09-06 12:27:30摩羯座
日期:2013-09-28 14:07:46处女座
日期:2013-10-24 14:25:01酉鸡
日期:2014-04-07 11:54:15
2 [报告]
发表于 2012-11-29 22:12 |只看该作者
是js设置的图片地址, 楼主看一下js代码分析一下来源吧, 可能地址不在js里写死, 都是ajax拉回来的, 还需要多一次请求.

论坛徽章:
0
3 [报告]
发表于 2012-11-30 14:35 |只看该作者
如果网页源码中找不到,那么就属于所谓的动态内容,是由其他,常常是javascript脚本,所生成的;
那么需要你利用工具:
【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程
去分析出对应的逻辑:
【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
此处即你所需要的图片的url。
然后再参考:
【教程】模拟登陆网站 之 Python版(内含两种版本的完整的可运行的代码)
去写出你自己的代码,去下载对应的图片。



论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52
4 [报告]
发表于 2012-12-03 15:56 |只看该作者
crifan 发表于 2012-11-30 14:35
如果网页源码中找不到,那么就属于所谓的动态内容,是由其他,常常是javascript脚本,所生成的;
那么需要 ...

非常感谢crifan,我已经到你的网站上拜读了几篇大作,关于 “【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项”, 但是对于如何抓取动态网页还是没有个整体印象,能不能举个例子,先谢了~

论坛徽章:
0
5 [报告]
发表于 2012-12-04 20:06 |只看该作者
wulien88 发表于 2012-12-03 15:56
非常感谢crifan,我已经到你的网站上拜读了几篇大作,关于 “【整理】关于抓取网页,分析网页内容,模拟登 ...
刚写了:

                                
【教程】如何抓取动态网页内容

【教程】以抓取网易博客帖子中的最近读者信息为例,手把手教你如何抓取动态网页中的内容

【整理】网页抓取,模拟登陆,抓取动态网页内容等过程中,所涉及的Headers信息,Cookie信息,POST数据的处理逻辑


暂时没写完,会抽空补充完整的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP