Chinaunix

标题: 如何拒绝这些爬虫? [打印本页]

作者: 浪子雄心    时间: 2006-04-21 11:41
标题: 如何拒绝这些爬虫?
如何拒绝这些爬虫?
可以告诉一下吗?


tcp        1      0 210.*.184.*:http          lj9112.inktomisearch.:36828 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj2210.inktomisearch.:39662 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          pc68.broad.dynamic.fz:16674 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2155.inktomisearch.:55243 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj9112.inktomisearch.:43435 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          lj9085.inktomisearch.:43123 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2216.inktomisearch.:44291 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj9110.inktomisearch.:57126 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj2352.inktomisearch.:34411 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          34.153.89.222.in-addr.:1356 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2080.inktomisearch.:39330 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          crawl-66-249-72-161.g:33485 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          crawl-66-249-72-161.g:37106 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2229.inktomisearch.:46900 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          lj9109.inktomisearch.:53567 ESTABLISHED
tcp        0      0 210.*.184.*:http          lj9055.inktomisearch.:55555 TIME_WAIT


-----------------------------------------

YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20


解释
由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的值,Visit-time为允许访问的时间段。
完整的规范可以看看:http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由 浪子雄心 于 2006-4-23 09:39 编辑 ]
作者: eqkilly    时间: 2006-04-21 12:54
我记得可以主动关闭连接
具体就不知道了
作者: Jambo    时间: 2006-04-21 13:07
你的web服务器么?

是不是某些搜索引擎在扫描你的内容?

用防火墙停掉他的tcp就行
作者: 浪子雄心    时间: 2006-04-21 13:25
我的服务器 是 Linux Apache php mysql 现在这些爬虫让数据库受不了


但是 如何通过 lj9055.inktomisearch.

取得对方的IP地 自动加入到 防火墙的控制里?
作者: colddawn    时间: 2006-04-21 13:48
如果是网络爬虫的话,一般访问都有明显标示,要么在浏览器标示字段,要么在refer字段,看一下你的apache的访问日志即可知道,在通过apache本身的访问控制功能即可很容易的拒绝掉,从防火墙层次来入手反而比较复杂。
简单举个例子,例如baidu爬虫,它特征是浏览器标示为:Baiduspider+(+http://www.baidu.com/search/spider.htm)

所以可以这样标示:
   BrowserMatch "^Baidu" baidu
然后合适的地方加入访问控制语句
   Allow from all
    Deny from env=baidu

这样这个爬虫访问过来都会变成403,也就无法到达数据库,目的基本就达到了。


另外其实如果是设计好的爬虫都会遵循Robots.txt语义的,你可以通过这个文件设置来控制爬虫行为。
作者: startkill    时间: 2006-04-21 16:28
爬虫我记得有一个标准文件robot.txt放到你的根目录下面。文件里面定义你要拒绝的爬虫的标志就可以了``这样爬虫在访问你的时候查看这个文件知道你禁止它来访问就可以了。
作者: 浪子雄心    时间: 2006-04-21 17:07
谢谢各位

inktomisearch  来自中文 YAHOO !!

也太照顾我的网站了 爬上来了 几十条!!

庆幸中的 无奈 !! 只好全拒了
作者: 心随你去    时间: 2006-04-21 21:22
学习中。。。
作者: 浪子雄心    时间: 2006-04-22 11:03
YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20


-----------------------------------------
解释
由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的值,Visit-time为允许访问的时间段。
完整的规范可以看看:http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由 浪子雄心 于 2006-4-23 09:38 编辑 ]
作者: william0427    时间: 2010-05-06 12:37
回复 1# 浪子雄心


   收藏先,多谢
作者: bbjmmj    时间: 2010-05-07 22:12
squid 反向代理,然后关键字过滤,这些爬虫就可以干掉了。
作者: 阳高县聊天    时间: 2010-05-13 08:58
:wink::wink::wink:我来顶个。。。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2