- 论坛徽章:
- 0
|
原文地址:http://www.douban.com/note/34135060/
抓取豆瓣数据分析:
抓取条数指下载html并提取出书音影信息并保存到指定文件
所测网址为:www.dou封.com/subject/xxxxxxx/
并发数 抓取间隔 一小时抓取条数
1 10秒间隔 360 条
1 1秒 3450条
1 2秒 1705条
1 无间隔 13497条 平均3.7/秒 1 小时后被封
8 无间隔 303*360条 平均30.3/秒 10秒后被封
(被封五小时后会自动解封,也可重启路由器解封)
1 个并发+抓取间隔测试:
10秒间隔抓取 正常 注:白天
2 秒间隔抓取 正常 注:半夜+白天
1 秒间隔抓取 十几分钟后被封 注:白天
无间隔测试:
1 个并发抓取 一小时后被封 注:半夜
8 个并发抓取 十秒后被封 注:白天
结论:
豆瓣自动检测用户访问的频率 目前看来最低的正常值是 单并发两秒间隔 (2秒到1秒之间我没测),从1个并发1秒间隔十分钟被封和1并发无间隔1小时被封来看,似乎白天比黑夜要严格的多。
ps1: 音乐试听信息可能因为商业合作 无法抓取 估计是之后js调用生成的
ps2:抓取被封后浏览器浏览豆瓣网依然正常,本人使用adsl,被封后重启路由器更换ip后抓取正常。难道是同时使用ip和cookie?定位访问者?
终极ps:本测试初衷是学习python正则表达式的应用 要想抓取豆瓣270万的书音影信息 那还是得考虑分布式抓取 否则耗时太久
[ 本帖最后由 muyufan 于 2009-5-21 22:51 编辑 ] |
|