Chinaunix

标题: 分享一个记录搜索引擎爬虫程序 [打印本页]

作者: abellq    时间: 2011-08-31 15:52
标题: 分享一个记录搜索引擎爬虫程序
function saveRobot($dir)
{
        $addtime = date('Y-m-d H:i:s',time());
        $GetLocationURL= "http://".$_SERVER["HTTP_HOST"].$_SERVER['REQUEST_URI'] ;
        $agent1 = $_SERVER["HTTP_USER_AGENT"] ;  
        $agent=strtolower($agent1);
        $Bot='';
        if (strpos($agent,"googlebot")>-1){$Bot = "Google";}           
        if (strpos($agent,"mediapartners-google")>-1){$Bot = "Google";}
        if (strpos($agent,"baiduspider")>-1){$Bot = "Baidu";}
        if (strpos($agent,"sogou spider")>-1){$Bot = "Sogou";}
        if (strpos($agent,"sosospider")>-1){$Bot = "Soso";}
        if($Bot!="")
        {
                $mDateTime=date("Y-m-d");
                //检查今天表存在否,不存在就建立。
                file_put_contents($dir."/$mDateTime.html","$Bot - $GetLocationURL - $addtime <br>",FILE_APPEND);
                //echo $agent .' - ' .$Bot .' - ' . $GetLocationURL;
        }
}

有用的童鞋就拿去用吧!
作者: ponych    时间: 2011-09-03 16:58
太高深了。小弟表示看不懂。
作者: abellq    时间: 2011-09-22 16:52
这个不难吧?就是PHP初学者也能看懂的呀!
作者: suntoltti    时间: 2011-09-26 11:01
useless
作者: xtx1188    时间: 2011-09-26 20:21
提示: 作者被禁止或删除 内容自动屏蔽
作者: leeyocool    时间: 2011-09-27 12:39
自己刚写了爬虫程序
作者: x9x9    时间: 2011-09-28 13:47
启用这个会不会降低网站反应速度?
作者: abellq    时间: 2011-10-27 17:26
启用这个会不会降低网站反应速度?
x9x9 发表于 2011-09-28 13:47



    如果你的流量较大,可以不要直接输出到文件,可以直接写入到数据库中!
作者: xinglu1983    时间: 2011-10-28 10:22
判断是爬虫还是自然人用户,从而达到让不同的来源进入不同的系统的目的,现在很多高pv网站都在使用这个方法。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2