免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2042 | 回复: 7

[网络相关] 网页抓取问题 [复制链接]

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
发表于 2014-10-19 20:21 |显示全部楼层
本帖最后由 huang6894 于 2014-10-19 20:22 编辑

不知道大家有没有好的建议。我想抓取一下:https://decipher.sanger.ac.uk/syndrome/2#phenotype这个页面的如图部分的三个信息,可是使用perl和wget一直抓取不了,浏览器读取的源代码也不行,可是浏览器的“审阅元素”是可以的,求助各位大神帮忙提供一个建议!!!
非常感谢,非常感谢! 104315v70vrtirz00dtpp0.png

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
发表于 2014-10-19 22:02 |显示全部楼层
学生党:飘过~因为你遇到了AJAX,要抓取数据就要模拟浏览器取数据可以用python写用scrapy抓取一抓一个准等会儿我把cygwin安装个scrapy先

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
发表于 2014-10-20 08:26 |显示全部楼层
回复 2# 李满满


    表示都不是我接触过的,非常抱歉哈,能不能提供一个例子呢?

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
发表于 2014-10-20 13:36 |显示全部楼层
已用perl解决,谢谢

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
发表于 2014-10-20 13:51 |显示全部楼层
回复 4# huang6894


    代码发出来分享一下吧

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
发表于 2014-10-20 14:10 |显示全部楼层
本帖最后由 reb00t 于 2014-10-20 14:38 编辑

ajax传的参数与链接怎么找到的呢? 求代码。{:3_189:}

好像是这个URL    https://decipher.sanger.ac.uk/sy ... ype?_=1413786729543

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
发表于 2014-10-20 19:10 |显示全部楼层
@Shell_HAT@reb00t其实不是解决ajax的问题,而是我之前单纯用wget得不到源代码,看了一下http://bbs.chinaunix.net/forum.p ... mp;fromuid=29097174这位大神的代码之后再去获取就得到了,然后就是重启大大说的页面。。。

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
发表于 2014-10-20 21:07 |显示全部楼层
嘿嘿可以用抓包工具分析networking~python中很多模块也可以很方便获取不用抓包的干活~回复 6# reb00t


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP