Chinaunix

标题: 如何拒绝这些爬虫？ [打印本页]

作者: 浪子雄心 时间: 2006-04-21 11:41
标题: 如何拒绝这些爬虫？
如何拒绝这些爬虫？
可以告诉一下吗？

tcp       1    0 210.*.184.*:http       lj9112.inktomisearch.:36828 CLOSE_WAIT
tcp       1    0 210.*.184.*:http       lj2210.inktomisearch.:39662 CLOSE_WAIT
tcp       0    0 210.*.184.*:http       pc68.broad.dynamic.fz:16674 ESTABLISHED
tcp       1    0 210.*.184.*:http       lj2155.inktomisearch.:55243 CLOSE_WAIT
tcp       1    0 210.*.184.*:http       lj9112.inktomisearch.:43435 CLOSE_WAIT
tcp       0    0 210.*.184.*:http       lj9085.inktomisearch.:43123 ESTABLISHED
tcp       1    0 210.*.184.*:http       lj2216.inktomisearch.:44291 CLOSE_WAIT
tcp       1    0 210.*.184.*:http       lj9110.inktomisearch.:57126 CLOSE_WAIT
tcp       1    0 210.*.184.*:http       lj2352.inktomisearch.:34411 CLOSE_WAIT
tcp       0    0 210.*.184.*:http       34.153.89.222.in-addr.:1356 ESTABLISHED
tcp       1    0 210.*.184.*:http       lj2080.inktomisearch.:39330 CLOSE_WAIT
tcp       1    0 210.*.184.*:http       crawl-66-249-72-161.g:33485 CLOSE_WAIT
tcp       0    0 210.*.184.*:http       crawl-66-249-72-161.g:37106 ESTABLISHED
tcp       1    0 210.*.184.*:http       lj2229.inktomisearch.:46900 CLOSE_WAIT
tcp       0    0 210.*.184.*:http       lj9109.inktomisearch.:53567 ESTABLISHED
tcp       0    0 210.*.184.*:http       lj9055.inktomisearch.:55555 TIME_WAIT

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20

解释
由于增加了访问过滤，那么就需要告诉网络爬虫爬行的速度不要太快，还好这个问题比较好解决，在robots.txt中增加：
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准，两种都用了，Crawl-delay是每秒访问的网页数，而Request-rate是页面数/时间段，可以设置为比较小的值，Visit-time为允许访问的时间段。
完整的规范可以看看：http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由浪子雄心于 2006-4-23 09:39 编辑 ]

作者: eqkilly 时间: 2006-04-21 12:54
我记得可以主动关闭连接
具体就不知道了

作者: Jambo 时间: 2006-04-21 13:07
你的web服务器么？

是不是某些搜索引擎在扫描你的内容？

用防火墙停掉他的tcp就行

作者: 浪子雄心 时间: 2006-04-21 13:25
我的服务器是 Linux Apache php mysql 现在这些爬虫让数据库受不了

但是如何通过 lj9055.inktomisearch.

取得对方的IP地自动加入到防火墙的控制里？

作者: colddawn 时间: 2006-04-21 13:48
如果是网络爬虫的话，一般访问都有明显标示，要么在浏览器标示字段，要么在refer字段，看一下你的apache的访问日志即可知道，在通过apache本身的访问控制功能即可很容易的拒绝掉，从防火墙层次来入手反而比较复杂。
简单举个例子，例如baidu爬虫，它特征是浏览器标示为：Baiduspider+(+http://www.baidu.com/search/spider.htm)

所以可以这样标示：
BrowserMatch "^Baidu" baidu
然后合适的地方加入访问控制语句
Allow from all
Deny from env=baidu

这样这个爬虫访问过来都会变成403，也就无法到达数据库，目的基本就达到了。

另外其实如果是设计好的爬虫都会遵循Robots.txt语义的，你可以通过这个文件设置来控制爬虫行为。

作者: startkill 时间: 2006-04-21 16:28
爬虫我记得有一个标准文件robot.txt放到你的根目录下面。文件里面定义你要拒绝的爬虫的标志就可以了``这样爬虫在访问你的时候查看这个文件知道你禁止它来访问就可以了。

作者: 浪子雄心 时间: 2006-04-21 17:07
谢谢各位

inktomisearch 来自中文 YAHOO ！！

也太照顾我的网站了爬上来了几十条！！

庆幸中的无奈！！只好全拒了

作者: 心随你去 时间: 2006-04-21 21:22
学习中。。。

作者: 浪子雄心 时间: 2006-04-22 11:03
YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
解释
由于增加了访问过滤，那么就需要告诉网络爬虫爬行的速度不要太快，还好这个问题比较好解决，在robots.txt中增加：
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准，两种都用了，Crawl-delay是每秒访问的网页数，而Request-rate是页面数/时间段，可以设置为比较小的值，Visit-time为允许访问的时间段。
完整的规范可以看看：http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由浪子雄心于 2006-4-23 09:38 编辑 ]

作者: william0427 时间: 2010-05-06 12:37
回复 1# 浪子雄心

收藏先，多谢

作者: bbjmmj 时间: 2010-05-07 22:12
squid 反向代理，然后关键字过滤，这些爬虫就可以干掉了。

作者: 阳高县聊天 时间: 2010-05-13 08:58
:wink::wink::wink:

我来顶个。。。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)