免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3732 | 回复: 4
打印 上一主题 下一主题

什么模块抓取网页动态数据比较好? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-11-22 18:05 |只看该作者 |倒序浏览
本帖最后由 homedw 于 2011-11-23 15:01 编辑

抓取淘宝商品评价和成交记录

这块没研究过,对于iamlimeng以前写过的一段代码来抓响应页面,但是找不到相应评价的地址。
get_html($url) 也同样抓不到我想要的内容。不知道怎么样才可以抓到用户评价。
求指导,只给我说下模块也可以的。我自己来写

http://bbs.chinaunix.net/thread-1819833-2-1.html

论坛徽章:
0
2 [报告]
发表于 2011-11-23 10:27 |只看该作者
还是那些模块就可以,只是评价的地址是js动态构造的,在页面加载后通过调用 js 写到相应的 css 标签位置上。所以重点是去看下js文件,找下构造 url 的规则。
另外,这个评价的返回数据是 json 格式。

论坛徽章:
0
3 [报告]
发表于 2011-11-23 17:24 |只看该作者
好的。。很感谢。我再去研究下js动态构造url规则。。。。看看有什么规律不

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
4 [报告]
发表于 2012-02-17 16:35 |只看该作者
回复 3# homedw


    我最近抓的公司的网页也遇到类似问题了,不知道楼主有什么解决方法没?

论坛徽章:
0
5 [报告]
发表于 2012-02-17 16:41 |只看该作者
用了AJAX技术的呢? 填了某个空网页就自动更新部分内容,这样的怎么处理?
我试过抓HTTP包(不是用FF的那个插件)来看,不过还是分析不出来.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP