- 论坛徽章:
- 1
|
本帖最后由 glq2000 于 2010-12-27 19:30 编辑
Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般情况下,网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
想请教下 ,除了robot.txt外,有什么其他的方式可以防止爬虫的爬取呢? 比如限制IP? 我还想到是利用user-Agent,但爬虫完全可以修改自身的user-agent的值啊?
============================================================================
补充一个问题:
比如一个论坛,只有登录用户才可以访问其内容,非登录用户会被跳转到登录页面,对于这样的网站,如果想让它自身被搜索引擎所收录,该怎么办呢?就是说即不让非登录用户看到帖子的内容,有让知名的爬虫(baiduspider googlebot等)爬取其帖子内容,对其进行收录和索引, 可以做到这样么?我听说有站长提交URL给搜索引擎的方式,这样可行么?
作为服务器端,有没有办法识别出一个请求是来自爬虫的请求呢?比如识别出是来自google的爬虫,则放行,可以爬取那些需要登录才可查看的内容,同时利用meta标签,让搜索引擎不产生快照?但对于普通用户却必须登录才可以查看; 这样就可以即被用户搜索到,同时让用户必须注册登录后才可以查看??
请大家指教 :) |
|