免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6645 | 回复: 8
打印 上一主题 下一主题

[爬虫]请教下 ,除了robot.txt外,有什么其他的方式可以防止爬虫的爬取呢? [复制链接]

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-12-27 16:20 |只看该作者 |倒序浏览
本帖最后由 glq2000 于 2010-12-27 19:30 编辑

Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般情况下,网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。




想请教下 ,除了robot.txt外,有什么其他的方式可以防止爬虫的爬取呢? 比如限制IP?  我还想到是利用user-Agent,但爬虫完全可以修改自身的user-agent的值啊?

============================================================================
补充一个问题:
    比如一个论坛,只有登录用户才可以访问其内容,非登录用户会被跳转到登录页面,对于这样的网站,如果想让它自身被搜索引擎所收录,该怎么办呢?就是说即不让非登录用户看到帖子的内容,有让知名的爬虫(baiduspider googlebot等)爬取其帖子内容,对其进行收录和索引, 可以做到这样么?我听说有站长提交URL给搜索引擎的方式,这样可行么?
作为服务器端,有没有办法识别出一个请求是来自爬虫的请求呢?比如识别出是来自google的爬虫,则放行,可以爬取那些需要登录才可查看的内容,同时利用meta标签,让搜索引擎不产生快照?但对于普通用户却必须登录才可以查看; 这样就可以即被用户搜索到,同时让用户必须注册登录后才可以查看??


    请大家指教 :)

论坛徽章:
0
2 [报告]
发表于 2010-12-27 16:35 |只看该作者
明枪易躲、暗箭难防

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00
3 [报告]
发表于 2010-12-27 16:57 |只看该作者
大家知道的指教下吧·:)

论坛徽章:
0
4 [报告]
发表于 2010-12-27 17:31 |只看该作者
验证码

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00
5 [报告]
发表于 2010-12-27 18:08 |只看该作者
回复 4# greensnow


    你说的是那种需要登录才可以访问的网站么? 爬虫没有认证的cookie信息,所以无法爬取想爬的页面,爬到的页面是登录页面??

    楼上是这个意思么?

    不知道还有没有其他办法呢?》

论坛徽章:
0
6 [报告]
发表于 2010-12-27 18:45 |只看该作者
根据ip限定流量, 限定访问间隔。。
如果robot修改自己的user-agent, 那同样可以无视robots.txt

论坛徽章:
0
7 [报告]
发表于 2010-12-27 18:55 |只看该作者
验证码就是 captcha,跟小甜饼没有半毛钱关系。
要防蜘蛛,你说的登录后才可访问的办法是可行的。校内,饭否,新浪,这些网站均需要登录后方能查看。

论坛徽章:
0
8 [报告]
发表于 2010-12-27 20:20 |只看该作者
小小爬虫,也是要讲职业道德地

论坛徽章:
0
9 [报告]
发表于 2010-12-28 13:29 |只看该作者
META robots
noindex
nofollow
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP