免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6112 | 回复: 11

如何拒绝这些爬虫? [复制链接]

论坛徽章:
0
发表于 2006-04-21 11:41 |显示全部楼层
如何拒绝这些爬虫?
可以告诉一下吗?


tcp        1      0 210.*.184.*:http          lj9112.inktomisearch.:36828 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj2210.inktomisearch.:39662 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          pc68.broad.dynamic.fz:16674 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2155.inktomisearch.:55243 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj9112.inktomisearch.:43435 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          lj9085.inktomisearch.:43123 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2216.inktomisearch.:44291 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj9110.inktomisearch.:57126 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj2352.inktomisearch.:34411 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          34.153.89.222.in-addr.:1356 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2080.inktomisearch.:39330 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          crawl-66-249-72-161.g:33485 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          crawl-66-249-72-161.g:37106 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2229.inktomisearch.:46900 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          lj9109.inktomisearch.:53567 ESTABLISHED
tcp        0      0 210.*.184.*:http          lj9055.inktomisearch.:55555 TIME_WAIT


-----------------------------------------

YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20


解释
由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的值,Visit-time为允许访问的时间段。
完整的规范可以看看:http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由 浪子雄心 于 2006-4-23 09:39 编辑 ]

论坛徽章:
0
发表于 2006-04-21 12:54 |显示全部楼层
我记得可以主动关闭连接
具体就不知道了

论坛徽章:
0
发表于 2006-04-21 13:07 |显示全部楼层
你的web服务器么?

是不是某些搜索引擎在扫描你的内容?

用防火墙停掉他的tcp就行

论坛徽章:
0
发表于 2006-04-21 13:25 |显示全部楼层
我的服务器 是 Linux Apache php mysql 现在这些爬虫让数据库受不了


但是 如何通过 lj9055.inktomisearch.

取得对方的IP地 自动加入到 防火墙的控制里?

论坛徽章:
0
发表于 2006-04-21 13:48 |显示全部楼层
如果是网络爬虫的话,一般访问都有明显标示,要么在浏览器标示字段,要么在refer字段,看一下你的apache的访问日志即可知道,在通过apache本身的访问控制功能即可很容易的拒绝掉,从防火墙层次来入手反而比较复杂。
简单举个例子,例如baidu爬虫,它特征是浏览器标示为:Baiduspider+(+http://www.baidu.com/search/spider.htm)

所以可以这样标示:
   BrowserMatch "^Baidu" baidu
然后合适的地方加入访问控制语句
   Allow from all
    Deny from env=baidu

这样这个爬虫访问过来都会变成403,也就无法到达数据库,目的基本就达到了。


另外其实如果是设计好的爬虫都会遵循Robots.txt语义的,你可以通过这个文件设置来控制爬虫行为。

论坛徽章:
0
发表于 2006-04-21 16:28 |显示全部楼层
爬虫我记得有一个标准文件robot.txt放到你的根目录下面。文件里面定义你要拒绝的爬虫的标志就可以了``这样爬虫在访问你的时候查看这个文件知道你禁止它来访问就可以了。

论坛徽章:
0
发表于 2006-04-21 17:07 |显示全部楼层
谢谢各位

inktomisearch  来自中文 YAHOO !!

也太照顾我的网站了 爬上来了 几十条!!

庆幸中的 无奈 !! 只好全拒了

论坛徽章:
0
发表于 2006-04-21 21:22 |显示全部楼层
学习中。。。

论坛徽章:
0
发表于 2006-04-22 11:03 |显示全部楼层
YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20


-----------------------------------------
解释
由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的值,Visit-time为允许访问的时间段。
完整的规范可以看看:http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由 浪子雄心 于 2006-4-23 09:38 编辑 ]

论坛徽章:
0
发表于 2010-05-06 12:37 |显示全部楼层
回复 1# 浪子雄心


   收藏先,多谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP