免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2287 | 回复: 6
打印 上一主题 下一主题

[求助]哪位兄台能给小弟发段数据采集的例子!谢谢! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-05-11 16:31 |只看该作者 |倒序浏览
[求助]哪位兄台能给小弟发段数据采集的例子!谢谢!

论坛徽章:
0
2 [报告]
发表于 2007-05-11 17:51 |只看该作者
<?php
print file_get_contents("http://www.baidu.com");
?>

论坛徽章:
0
3 [报告]
发表于 2007-05-11 19:25 |只看该作者
原帖由 3227049 于 2007-5-11 17:51 发表
<?php
print file_get_contents("http://www.baidu.com");
?>


这样行吗?file_get_contents?能采集吗?baidu又没定义规范?

论坛徽章:
0
4 [报告]
发表于 2007-05-11 21:17 |只看该作者
数据采集后怎么过滤?只收集有用的数据,比如新闻系统的,只采集标题和内容,
在网上找了写资料看,迷糊!

论坛徽章:
0
5 [报告]
发表于 2007-05-12 16:04 |只看该作者


  1. $folder = BASE_DIR.'/tmp/avn/';
  2. $nums = array(20,40,60,80,100,120,140,160,180,200,220);

  3. foreach ($nums as $num){
  4.         $url = "http://image.baidu.com/i?z=0&cl=2&ct=201326592&sn=&lm=-1&cm=1&sc=0&bu=&rn=21&tn=baiduimage&word=%CD%B7%CF%F1&pn=$num";
  5.         $content = file_get_contents($url);
  6.         $regexp = '|target=_blank><img src=(http://\w\d.baidu.com/it/u=\d*,\d*&gp=\d*.jpg)></a><br>|iU';
  7.         preg_match_all($regexp,$content,$need);
  8.         fuck_av($need[1]);
  9. }
  10. function fuck_av($array){
  11.         foreach ($array as $img){
  12.                 saveImage($img);
  13.         }
  14. }

  15. echo '保存完毕!';

  16. function saveImage($uri){
  17.         global $folder;
  18.         $file = time().'_'.rand(0,9999).'.jpg';
  19.         $file = $folder.$file;
  20.         $fp = fopen($file,'w');
  21.         @fwrite($fp,getvarable($uri));
  22.         @fclose($fp);
  23.         if(file_exists($file))
  24.                 _log($file."\t保存完毕\r\n");
  25. }


  26. function _log($str){
  27.         $file = BASE_DIR.'/log/image.'.date('Y_m_d').'.txt';
  28.         $fp = fopen($file,'a+');
  29.         @fwrite($fp,$str);
  30.         @fclose($fp);
  31. }
复制代码

论坛徽章:
0
6 [报告]
发表于 2007-05-12 23:45 |只看该作者
snooy

论坛徽章:
0
7 [报告]
发表于 2007-05-16 23:06 |只看该作者
QQ群。主要探讨:Apache 模块开发,PHP PECL扩展,MySql API开发,SEO技术

欢迎来自CU、PHPX、CSDN、PHPE、落伍、NJPHP等论坛的朋友,大家共同提高。

QQ群号码 38397726
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP