super皮波 发表于 2014-12-22 17:59

response = urllib2.open中的问题

本帖最后由 super皮波 于 2014-12-22 18:00 编辑

请教一个问题,response.read()为何读不出div标签?多谢了

aswjh 发表于 2014-12-22 19:06

是不是页面压缩了?用page[:3]==b'\x1F\x8B\x08'判断一下

super皮波 发表于 2014-12-22 19:18

问的有点问题,response.read中不能读取需要执行javascript生成动态图像的代码

super皮波 发表于 2014-12-22 23:33

回复 2# aswjh
兄弟再说的详细点呗,我是新手


   

aswjh 发表于 2014-12-23 14:05

python能读取的只是网页的文本,js动态生成的是没法读到的.
要么根据js代码用python模拟生成,要么找一个能执行js的库来抓取,比如PhantomJS,selenium,我都没用过,网上找找资料看吧.

super皮波 发表于 2014-12-23 15:06

回复 5# aswjh
好的,多谢了,我找找资料!!


   

bikong0411 发表于 2014-12-24 10:00

casperjs是个不错的选择
页: [1]
查看完整版本: response = urllib2.open中的问题