免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4011 | 回复: 9
打印 上一主题 下一主题

如何应对机器人 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-09-24 17:46 |只看该作者 |倒序浏览
想问一下大家,网站运行很正常,可是机器人来抓同时4~5个一起来  
服务器的反应就会很慢 load 都要在10以上了
不知道大家对这个有什么办法,当然是不能封机器人的ip。

论坛徽章:
0
2 [报告]
发表于 2008-09-25 14:57 |只看该作者
大家都没有碰到过这样的问题吗?

论坛徽章:
0
3 [报告]
发表于 2008-09-27 12:05 |只看该作者
看不懂你说的

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
4 [报告]
发表于 2008-09-28 20:19 |只看该作者
原帖由 gregorian 于 2008-9-24 17:46 发表
想问一下大家,网站运行很正常,可是机器人来抓同时4~5个一起来  
服务器的反应就会很慢 load 都要在10以上了
不知道大家对这个有什么办法,当然是不能封机器人的ip。


每种SPIDER都有专门的USER AGENT标识,在WEB服务器的日志里能看出来,比如雅虎的是SPIDERMAN等等,而普通用户一般都是IE、MAXTHON什么的,你可以在APACHE里屏蔽掉相应的USER-AGENT,不过不推荐这么做,因为这么做了搜索引擎会抓不到你页面,你的搜索排名会大打折扣。

建议用反向代理提高访问速度,反向代理可以缓存页面。

不过,这两个建议都只能治标,你还得想办法改进CMS,比如提高一下数据库查询效率什么的,这样才能解决根本问题。

论坛徽章:
0
5 [报告]
发表于 2008-10-05 17:53 |只看该作者
你没找到问题的根本:这不是蜘蛛的问题,而是你的应用本身或服务器承载性能能力不行,需要优化

论坛徽章:
0
6 [报告]
发表于 2008-10-06 13:15 |只看该作者
可以设置robots.txt  大型搜索引擎都会遵守这个协议。当然也可以屏蔽蜘蛛的ip地址。
以你目前说的数量来看,最好还是优化服务器和代码。

论坛徽章:
0
7 [报告]
发表于 2008-10-07 23:29 |只看该作者
机器人一天也就爬个几次 还是优化程序笔记好

论坛徽章:
0
8 [报告]
发表于 2008-10-10 12:23 |只看该作者
能被机器人爬死?

论坛徽章:
0
9 [报告]
发表于 2008-10-10 12:38 |只看该作者

回复 #1 gregorian 的帖子

恩 , 这也是一个比较有意思的问题 。 小网站本身没有推广,知名度低而且还有一个心疼的问题: 自己没有精力推广 。 这就有 如果被机器人爬信息有利小网站的知名度,不过面对的就是它给我们造成的压力。 被爬死到不至于,影响正常客户访问是必然。 建议分流 , 让那些机器人慢慢爬去吧。

论坛徽章:
0
10 [报告]
发表于 2008-10-24 14:15 |只看该作者
谢谢大家的主意,目前是把其他的搜索引擎给封了
除了google baidu yahoo 这3个。

程序和数据库本来就写的不是很好,可惜我主要是管理服务器,再优化程序上帮不上忙
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP