免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4588 | 回复: 2
打印 上一主题 下一主题

贡献一个开源项目 parallel-curl [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-03-31 00:24 |只看该作者 |倒序浏览
我看到一些开源的curl-multi封装不够好, 于是闲着没事写了一个.

可以利用它搭建一个负责HTTP并发通讯的子程序.

如果将其中的CurlTaskList作成动态载入的形式(比如向某个urls服务器请求获取任务), 如果将OnFinished扩展成HTML Parser, (比如提取内容并存储, 解析出urls, 提交回urls服务器) 那么一个简陋的蜘蛛就搭起来了.

-------------

项目主页:
https://github.com/dulao5/parallel-curl

Parallel Curl
=============

一个高性能的HTTP并发客户端库 . 使用了curl_multi* .

特性:
* 并发执行(多路复用)
* 事件模式:
   * 每个HTTP访问视为一个"Task"
   * 主程序是个run()函数. 当Task执行完时, 会通知调用方, 调用方在On Finished事件中处理自己的任务;
   * 我实现了一个Task迭代器, 你可以直接push task(类似数组), 也可以更灵活的扩充它
* live connection
   * 内部有个Curl Pool , Curl Handle使用一次并不关闭连接, 下次请求会继续使用它.
* 其他Curl固有的特性


Classes
=======

* CurlMFetcher : 并发获取类, run函数相当于主程序
* CurlPool : curl handle cache
* CurlTaskList : 任务列表
* CurlTaskAbstract : Task抽象类, 你继承它实现自己的OnFinished事件代码

实例
=====

> php test/test.php test/urls.txt
> cat test/test.php

  1. <?php
  2. //autoload
  3. function __autoload($classname) {
  4.         static $lib_path ;
  5.         if(!$lib_path) {
  6.                 $lib_path = dirname(__FILE__)."/../inc/";
  7.         }
  8.         include("$lib_path/$classname.php");
  9. }

  10. //define your task implement
  11. class MyCurlTask extends CurlTaskAbstract {
  12.         protected function onFinished() {
  13.                 $info = curl_getinfo($this->_curl);
  14.                 $contents = curl_multi_getcontent($this->_curl);
  15.                 //do something
  16.                 fprintf(STDERR, "%s\ttask\t%s\tfinished\n", date("Y-m-d H:i:s.u"), $this->_url);
  17.                 //todo
  18.                 //you can implement a http content parser , or save to file , or other
  19.         }
  20. }

  21. //load task list

  22. $tasklist = new CurlTaskList();
  23. $opts = array(
  24.                 CURLOPT_VERBOSE => 0 ,
  25.                 CURLOPT_CONNECTTIMEOUT => 1,
  26.                 CURLOPT_RETURNTRANSFER => true,
  27.                 CURLOPT_ENCODING => 'gzip,deflate',
  28.                 );

  29. foreach(array_filter(array_map('trim', file($argv[1]))) as $url) {
  30.                 $tasklist->push(new MyCurlTask($url, $opts));
  31. }

  32. //using curl multi featcher and run
  33. $tunnels = 4;
  34. $curlm = new CurlMFetcher($tasklist, $tunnels);
  35. $curlm->setDebug(true);

  36. //run
  37. $curlm->run();
复制代码

论坛徽章:
0
2 [报告]
发表于 2011-03-31 08:02 |只看该作者
嗯,学习了。。。

论坛徽章:
0
3 [报告]
发表于 2011-03-31 16:56 |只看该作者
学习
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP