免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 8563 | 回复: 13
打印 上一主题 下一主题

python如何获取网页的最终页面? [复制链接]

论坛徽章:
2
巨蟹座
日期:2014-10-26 19:52:562015年亚洲杯之乌兹别克斯坦
日期:2015-04-19 13:19:24
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-07-01 15:42 |只看该作者 |倒序浏览
大家好!
我想用python获取一个网页的源代码(即在chrome中点右键------>查看框架的源代码),但是用urllib2.urlopen()获取的不是最终的HTML代码(是在chrome中点右键------->查看网页源代码 的代码),这个代码很简短。大家有什么好的办法吗?

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
2 [报告]
发表于 2014-07-01 20:09 |只看该作者
不是源码么? 我看到的是源码啊

t = urllib2.urlopen(url)
f = t.read()
print f

不是源码?

论坛徽章:
2
巨蟹座
日期:2014-10-26 19:52:562015年亚洲杯之乌兹别克斯坦
日期:2015-04-19 13:19:24
3 [报告]
发表于 2014-07-02 09:25 |只看该作者
回复 2# reyleon

不是网页的最终源码。以附件为例:
New folder.zip (22.15 KB, 下载次数: 6)



里面的1.htm是网页的最终源码,即在chrome中点右键------>查看框架的源代码获得的代码,2.htm是在chrome中点右键------->查看网页源代码获得的代码,也就是用urllib2.urlopen()获得的代码。或者用哪种方式把2转化为1吗?


   

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
4 [报告]
发表于 2014-07-02 10:35 |只看该作者
哦哦哦 有些网页没有 "查看框架源代码" 呀.  你给个 URL 来看看啊

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
5 [报告]
发表于 2014-07-02 11:41 |只看该作者
回复 4# reyleon
楼主attached的附件里面有网页地址的,只是这是个https的,没有办法打开,呵呵。

论坛徽章:
2
巨蟹座
日期:2014-10-26 19:52:562015年亚洲杯之乌兹别克斯坦
日期:2015-04-19 13:19:24
6 [报告]
发表于 2014-07-02 12:46 |只看该作者
回复 4# reyleon

不好意思。。我指的是SAP的在线note系统,登录需要用户名密码验证权限的。。由于项目需要有时候得手动下载很多note,我就想用python自动化实现。
我想用Selenium+Python应该也可以,只是Selenium能处理第一次访问网站时弹出的身份认证对话框吗?求大神指导。。


   

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
7 [报告]
发表于 2014-07-02 18:31 |只看该作者
回复 6# Panyway
在没有找到验证码机制之前,建议你每次使用之前,手工登录,把对应的cookie取出来,然后让python去抓取内容。
这个连接有人正好在问cookie的事情,你也可以看下

论坛徽章:
2
巨蟹座
日期:2014-10-26 19:52:562015年亚洲杯之乌兹别克斯坦
日期:2015-04-19 13:19:24
8 [报告]
发表于 2014-07-02 19:47 |只看该作者
回复 7# icymirror
多谢了。。登录那个还好处理,用urllib2模块的urllib2.HTTPBasicAuthHandler()和urllib2.request()都能实现登录,但获取不了最终源码;用Selenium和Mechanize有很大限制,而且最开始的那个身份认证弹出框我不知怎么处理。。现在是没辙了。

   

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
9 [报告]
发表于 2014-07-02 23:10 |只看该作者
回复 8# Panyway
一定会有解决方法的。
既然是得到了框架代码,那框架代码里面会包含对应的被嵌套的页面的地址,你可以用这个去试着获取下。
或者,如果不确定的话,你可以打开浏览器工具或者附件(IE是用F11,Firefox/chrome有插件),去跟踪下打开的页面的实际URL也可以啊。
反正页面基本上就是HTTP协议下面的数据交互之后的展示,去跟踪下还是可以找到不少东西的。

论坛徽章:
2
巨蟹座
日期:2014-10-26 19:52:562015年亚洲杯之乌兹别克斯坦
日期:2015-04-19 13:19:24
10 [报告]
发表于 2014-07-03 09:27 |只看该作者
回复 9# icymirror
IE是F12吧。。
能找到获取最终页面的那个Http请求,是用post方式的,但那个url直接访问不了,整体过程很复杂。先生能私下交流下吗?我给你发消息了。。

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP