免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8578 | 回复: 4
打印 上一主题 下一主题

python如何获取网页的最终页面? [复制链接]

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
1 [报告]
发表于 2014-07-02 11:41 |显示全部楼层
回复 4# reyleon
楼主attached的附件里面有网页地址的,只是这是个https的,没有办法打开,呵呵。

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
2 [报告]
发表于 2014-07-02 18:31 |显示全部楼层
回复 6# Panyway
在没有找到验证码机制之前,建议你每次使用之前,手工登录,把对应的cookie取出来,然后让python去抓取内容。
这个连接有人正好在问cookie的事情,你也可以看下

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
3 [报告]
发表于 2014-07-02 23:10 |显示全部楼层
回复 8# Panyway
一定会有解决方法的。
既然是得到了框架代码,那框架代码里面会包含对应的被嵌套的页面的地址,你可以用这个去试着获取下。
或者,如果不确定的话,你可以打开浏览器工具或者附件(IE是用F11,Firefox/chrome有插件),去跟踪下打开的页面的实际URL也可以啊。
反正页面基本上就是HTTP协议下面的数据交互之后的展示,去跟踪下还是可以找到不少东西的。

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
4 [报告]
发表于 2014-07-03 09:39 |显示全部楼层
回复 10# Panyway
确实是我记错快捷键了。

论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
5 [报告]
发表于 2014-07-03 09:49 |显示全部楼层
回复 10# Panyway
因为看不到数据,所以没有什么更进一步的建议。
不过,不知道你能不能把对应的网络交换数据发出来?这样可以了解些具体的情况。
比如:如果是使用的IE,可以先F12
然后,选择那个绿色的三角符号,开始录网络数据
然后,你做页面的基本操作,等到期望的页面显示出来了,在刚刚的工具栏上点击那个红色的方块。
然后,在那个工具栏上面还有个3.5寸磁盘的符号,点击下,把数据导出。
导出成XML之后,你先把xml文件打开,把你的用户名、密码找出来,用汉字“用户名”,“密码”代替。
然后再把修改后的数据文件发出来吧。
(还有个风险没有除去,别人可能会用那个cookie去访问你之前的连接,建议把数据文件导出之后,从系统上logout,这样cookie也可以被失效了。)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP