Chinaunix

标题: LWP::UserAgent抓取问题 [打印本页]

作者: bernana    时间: 2013-07-03 15:34
标题: LWP::UserAgent抓取问题
http://www.haibao.com/star/明星风云榜
这个页面我通过浏览器能得到全部页面内容。通过LWP::UserAgent只返回了2500多行。
直接通过curl也是如此。有人碰到过,知道是什么原因吗?
作者: grshrd49    时间: 2013-07-03 16:47
请上代码      
作者: bernana    时间: 2013-07-03 17:46
回复 2# grshrd49


    不用上代码。你curl http://www.haibao.com/star/明星风云榜/
得到的就不是全部的页面代码。跟本地的机器设置有关?
作者: zk1878    时间: 2013-07-31 09:06
回复 3# bernana

没问题呀 我用getstore函数是可以取到所有内容的
   
作者: laputa73    时间: 2013-07-31 09:47
curl和lwp只会获取首页的框架html代码,而不会去渲染页面,不包含frame,js动态加载内容
那些动态的东西都是浏览器根据首页代码另外下载和加载的
你用浏览器自带的开发者工具看看就知道了.




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2