免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6022 | 回复: 2
打印 上一主题 下一主题

抓取豆瓣数据及被封简要分析 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-05-21 16:54 |只看该作者 |倒序浏览
原文地址:http://www.douban.com/note/34135060/

抓取豆瓣数据分析:


    抓取条数指下载html并提取出书音影信息并保存到指定文件
    所测网址为:www.dou封.com/subject/xxxxxxx/

并发数    抓取间隔      一小时抓取条数

1            10秒间隔       360 条
1            1秒            3450条
1            2秒            1705条
1            无间隔         13497条     平均3.7/秒     1 小时后被封
8            无间隔         303*360条   平均30.3/秒    10秒后被封

(被封五小时后会自动解封,也可重启路由器解封)

1 个并发+抓取间隔测试:
    10秒间隔抓取  正常            注:白天
    2 秒间隔抓取  正常            注:半夜+白天
    1 秒间隔抓取  十几分钟后被封  注:白天
无间隔测试:
    1 个并发抓取  一小时后被封    注:半夜
    8 个并发抓取  十秒后被封      注:白天
结论:
    豆瓣自动检测用户访问的频率 目前看来最低的正常值是 单并发两秒间隔 (2秒到1秒之间我没测),从1个并发1秒间隔十分钟被封和1并发无间隔1小时被封来看,似乎白天比黑夜要严格的多。


   ps1: 音乐试听信息可能因为商业合作 无法抓取 估计是之后js调用生成的
   ps2:抓取被封后浏览器浏览豆瓣网依然正常,本人使用adsl,被封后重启路由器更换ip后抓取正常。难道是同时使用ip和cookie?定位访问者?
终极ps:本测试初衷是学习python正则表达式的应用 要想抓取豆瓣270万的书音影信息 那还是得考虑分布式抓取 否则耗时太久

[ 本帖最后由 muyufan 于 2009-5-21 22:51 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-05-22 08:16 |只看该作者
啥叫分布式抓取?是多几台机器?

另外,帖这个有什么想法?

论坛徽章:
0
3 [报告]
发表于 2009-05-29 10:34 |只看该作者
代码帖上来学习一下啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP