免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4114 | 回复: 8
打印 上一主题 下一主题

分享一个记录搜索引擎爬虫程序 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-08-31 15:52 |只看该作者 |倒序浏览
function saveRobot($dir)
{
        $addtime = date('Y-m-d H:i:s',time());
        $GetLocationURL= "http://".$_SERVER["HTTP_HOST"].$_SERVER['REQUEST_URI'] ;
        $agent1 = $_SERVER["HTTP_USER_AGENT"] ;  
        $agent=strtolower($agent1);
        $Bot='';
        if (strpos($agent,"googlebot")>-1){$Bot = "Google";}           
        if (strpos($agent,"mediapartners-google")>-1){$Bot = "Google";}
        if (strpos($agent,"baiduspider")>-1){$Bot = "Baidu";}
        if (strpos($agent,"sogou spider")>-1){$Bot = "Sogou";}
        if (strpos($agent,"sosospider")>-1){$Bot = "Soso";}
        if($Bot!="")
        {
                $mDateTime=date("Y-m-d");
                //检查今天表存在否,不存在就建立。
                file_put_contents($dir."/$mDateTime.html","$Bot - $GetLocationURL - $addtime <br>",FILE_APPEND);
                //echo $agent .' - ' .$Bot .' - ' . $GetLocationURL;
        }
}

有用的童鞋就拿去用吧!

论坛徽章:
0
2 [报告]
发表于 2011-09-03 16:58 |只看该作者
太高深了。小弟表示看不懂。

论坛徽章:
0
3 [报告]
发表于 2011-09-22 16:52 |只看该作者
这个不难吧?就是PHP初学者也能看懂的呀!

论坛徽章:
0
4 [报告]
发表于 2011-09-26 11:01 |只看该作者
useless

论坛徽章:
0
5 [报告]
发表于 2011-09-26 20:21 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
6 [报告]
发表于 2011-09-27 12:39 |只看该作者
自己刚写了爬虫程序

论坛徽章:
0
7 [报告]
发表于 2011-09-28 13:47 |只看该作者
启用这个会不会降低网站反应速度?

论坛徽章:
0
8 [报告]
发表于 2011-10-27 17:26 |只看该作者
启用这个会不会降低网站反应速度?
x9x9 发表于 2011-09-28 13:47



    如果你的流量较大,可以不要直接输出到文件,可以直接写入到数据库中!

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:55:28
9 [报告]
发表于 2011-10-28 10:22 |只看该作者
判断是爬虫还是自然人用户,从而达到让不同的来源进入不同的系统的目的,现在很多高pv网站都在使用这个方法。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP