Chinaunix
标题:
分享一个记录搜索引擎爬虫程序
[打印本页]
作者:
abellq
时间:
2011-08-31 15:52
标题:
分享一个记录搜索引擎爬虫程序
function saveRobot($dir)
{
$addtime = date('Y-m-d H:i:s',time());
$GetLocationURL= "http://".$_SERVER["HTTP_HOST"].$_SERVER['REQUEST_URI'] ;
$agent1 = $_SERVER["HTTP_USER_AGENT"] ;
$agent=strtolower($agent1);
$Bot='';
if (strpos($agent,"googlebot")>-1){$Bot = "Google";}
if (strpos($agent,"mediapartners-google")>-1){$Bot = "Google";}
if (strpos($agent,"baiduspider")>-1){$Bot = "Baidu";}
if (strpos($agent,"sogou spider")>-1){$Bot = "Sogou";}
if (strpos($agent,"sosospider")>-1){$Bot = "Soso";}
if($Bot!="")
{
$mDateTime=date("Y-m-d");
//检查今天表存在否,不存在就建立。
file_put_contents($dir."/$mDateTime.html","$Bot - $GetLocationURL - $addtime <br>",FILE_APPEND);
//echo $agent .' - ' .$Bot .' - ' . $GetLocationURL;
}
}
有用的童鞋就拿去用吧!
作者:
ponych
时间:
2011-09-03 16:58
太高深了。小弟表示看不懂。
作者:
abellq
时间:
2011-09-22 16:52
这个不难吧?就是PHP初学者也能看懂的呀!
作者:
suntoltti
时间:
2011-09-26 11:01
useless
作者:
xtx1188
时间:
2011-09-26 20:21
提示:
作者被禁止或删除 内容自动屏蔽
作者:
leeyocool
时间:
2011-09-27 12:39
自己刚写了爬虫程序
作者:
x9x9
时间:
2011-09-28 13:47
启用这个会不会降低网站反应速度?
作者:
abellq
时间:
2011-10-27 17:26
启用这个会不会降低网站反应速度?
x9x9 发表于 2011-09-28 13:47
如果你的流量较大,可以不要直接输出到文件,可以直接写入到数据库中!
作者:
xinglu1983
时间:
2011-10-28 10:22
判断是爬虫还是自然人用户,从而达到让不同的来源进入不同的系统的目的,现在很多高pv网站都在使用这个方法。
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2