Chinaunix

标题: 什么模块抓取网页动态数据比较好? [打印本页]

作者: homedw    时间: 2011-11-22 18:05
标题: 什么模块抓取网页动态数据比较好?
本帖最后由 homedw 于 2011-11-23 15:01 编辑

抓取淘宝商品评价和成交记录

这块没研究过,对于iamlimeng以前写过的一段代码来抓响应页面,但是找不到相应评价的地址。
get_html($url) 也同样抓不到我想要的内容。不知道怎么样才可以抓到用户评价。
求指导,只给我说下模块也可以的。我自己来写

http://bbs.chinaunix.net/thread-1819833-2-1.html
作者: x9x9    时间: 2011-11-23 10:27
还是那些模块就可以,只是评价的地址是js动态构造的,在页面加载后通过调用 js 写到相应的 css 标签位置上。所以重点是去看下js文件,找下构造 url 的规则。
另外,这个评价的返回数据是 json 格式。
作者: homedw    时间: 2011-11-23 17:24
好的。。很感谢。我再去研究下js动态构造url规则。。。。看看有什么规律不
作者: ace_fei    时间: 2012-02-17 16:35
回复 3# homedw


    我最近抓的公司的网页也遇到类似问题了,不知道楼主有什么解决方法没?
作者: zhh124    时间: 2012-02-17 16:41
用了AJAX技术的呢? 填了某个空网页就自动更新部分内容,这样的怎么处理?
我试过抓HTTP包(不是用FF的那个插件)来看,不过还是分析不出来.




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2