Chinaunix

标题: 对CURL的一些研究 [打印本页]

作者: mq110    时间: 2005-07-31 09:43
标题: 对CURL的一些研究
前两天看到有人求客户端socket 发HTTP包的代码,受flw版主启发找了一些perl的资料,不过对perl 还是不太熟悉。也没有深入的研究。无意中发现了libcurl.so 这个库。去google上搜索发现它是处理客户端发送HTTP请求的库 以及可以处理web服务器回送回来的包。研究了两天将研究的成果,共享出来给大家一起研究。

参考:http://curl.haxx.se/  这是curl开发者的首页。

利用libcurl.so库 我们能轻松的连接某个web站点。获得某个首页的html代码 或者是http 请求的头部。 还可以提交表单,
此外它还支持ftp,https,

/usr/include/curl/curl.h 中。

1 CURLcode curl_global_init(long flags);

描述:
这个函数只能用一次。(其实在调用curl_global_cleanup 函数后仍然可再用)
如果这个函数在curl_easy_init函数调用时还没调用,它讲由libcurl库自动完成。

参数:flags

CURL_GLOBAL_ALL           //初始化所有的可能的调用。
CURL_GLOBAL_SSL           //初始化支持 安全套接字层。
CURL_GLOBAL_WIN32         //初始化win32套接字库。
CURL_GLOBAL_NOTHING     //没有额外的初始化。


2 void curl_global_cleanup(void);

描述:在结束libcurl使用的时候,用来对curl_global_init做的工作清理。类似于close的函数。

3 char *curl_version( );

描述: 打印当前libcurl库的版本。


4 CURL *curl_easy_init( );

描述:
curl_easy_init用来初始化一个CURL的指针(有些像返回FILE类型的指针一样). 相应的在调用结束时要用curl_easy_cleanup函数清理.
一般curl_easy_init意味着一个会话的开始. 它的返回值一般都用在easy系列的函数中.

5  void curl_easy_cleanup(CURL *handle);

描述:
这个调用用来结束一个会话.与curl_easy_init配合着用.

参数:
CURL类型的指针.

6  CURLcode curl_easy_setopt(CURL *handle, CURLoption option, parameter);

描述: 这个函数最重要了.几乎所有的curl 程序都要频繁的使用它.
它告诉curl库.程序将有如何的行为. 比如要查看一个网页的html代码等.
(这个函数有些像ioctl函数)

参数:
1 CURL类型的指针
2 各种CURLoption类型的选项.(都在curl.h库里有定义,man 也可以查看到)
3 parameter 这个参数 既可以是个函数的指针,也可以是某个对象的指针,也可以是个long型的变量.它用什么这取决于第二个参数.

CURLoption 这个参数的取值很多.具体的可以查看man手册.

7 CURLcode curl_easy_perform(CURL *handle);

描述:这个函数在初始化CURL类型的指针 以及curl_easy_setopt完成后调用. 就像字面的意思所说perform就像是个舞台.让我们设置的
option 运作起来.

参数:
CURL类型的指针.
作者: mq110    时间: 2005-07-31 09:43
标题: 对CURL的一些研究
下面来看一个简单的例子:
用来获得某个主页的html代码

  1. #include <stdio.h>;
  2. #include <curl/curl.h>;
  3. #include <stdlib.h>;

  4. int main(int argc, char *argv[])
  5. {
  6.     CURL *curl;                        //定义CURL类型的指针
  7.     CURLcode res;                //定义CURLcode类型的变量

  8.     if(argc!=2)
  9.     {
  10.         printf("Usage : file <url>;\n");
  11.         exit(1);
  12.     }

  13.     curl = curl_easy_init();        //初始化一个CURL类型的指针
  14.     if(curl!=NULL)
  15.     {
  16.         //设置curl选项. 其中CURLOPT_URL是让用户指定url. argv[1]中存放的命令行传进来的网址
  17.         curl_easy_setopt(curl, CURLOPT_URL, argv[1]);       
  18.         //调用curl_easy_perform 执行我们的设置.并进行相关的操作. 在这里只在屏幕上显示出来.
  19.         res = curl_easy_perform(curl);
  20.         //清除curl操作.
  21.         curl_easy_cleanup(curl);
  22.     }
  23.     return 0;
  24. }
复制代码


编译: gcc -o 001 -Wall 001.c -lcurl

我们来获得www.chinaunix.net 主页的html代码

./001 www.chinaunix.net
作者: mq110    时间: 2005-07-31 09:44
标题: 对CURL的一些研究
再来看一个例子:
实际编程时 我们未必只显示出来.我们的目的是要对获得html代码做相应的处理.比如检验关键字,发现重要信息等等.

那么我们就需要把获得的html代码存入相应的文件中.看下面一个例子


  1. #include <stdio.h>;
  2. #include <stdlib.h>;
  3. #include <unistd.h>;

  4. #include <curl/curl.h>;
  5. #include <curl/types.h>;
  6. #include <curl/easy.h>;

  7. FILE *fp;  //定义FILE类型指针

  8. size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)  //这个函数是为了符合CURLOPT_WRITEFUNCTION, 而构造的
  9. {
  10.     int written = fwrite(ptr, size, nmemb, (FILE *)fp);
  11.     return written;
  12. }

  13. int main(int argc, char *argv[])
  14. {
  15.     CURL *curl;

  16.     curl_global_init(CURL_GLOBAL_ALL);  
  17.     curl=curl_easy_init();
  18.     curl_easy_setopt(curl, CURLOPT_URL, argv[1]);  

  19.     if((fp=fopen(argv[1],"w"))==NULL)
  20.     {
  21.         curl_easy_cleanup(curl);
  22.         exit(1);
  23.     }
  24.     curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data);  //CURLOPT_WRITEFUNCTION 将后继的动作交给write_data函数处理
  25.     curl_easy_perform(curl);
  26.     curl_easy_cleanup(curl);
  27.     exit(0);
  28. }
复制代码


gcc -o 002 -Wall 002.c -lcurl
./002 www.chinaunix.net
这个例子就将html代码保存在了www.chinaunix.net文件中了.
作者: mq110    时间: 2005-07-31 09:45
标题: 对CURL的一些研究
此外还可以获得http报文的头部 post表单 等等. 这里就不详细的介绍了. 具体的可以man curl_easy_setopt
(要用到一个重要的结构体,HttpPost)



下面看一个从ftp站点下载文件的例子.


  1. #include <stdio.h>;
  2. #include <curl/curl.h>;
  3. #include <curl/types.h>;
  4. #include <curl/easy.h>;

  5. struct FtpFile   //定义一个结构为了传递给my_fwrite函数.可用curl_easy_setopt的CURLOPT_WRITEDATA选项传递
  6. {
  7.         char *filename;
  8.         FILE *stream;
  9. };

  10. int my_fwrite(void *buffer, size_t size, size_t nmemb, void *stream)
  11. {
  12.         struct FtpFile *out=(struct FtpFile *)stream;  // stream指针其实就是 指向struct FtpFile ftpfile的
  13.         if(out && !out->;stream)
  14.         {
  15.                 out->;stream=fopen(out->;filename, "wb"); //没有这个流的话就创建一个 名字是out->;filename.
  16.                 if(!out->;stream)
  17.                 return -1;
  18.         }
  19.         return fwrite(buffer, size, nmemb, out->;stream);
  20. }

  21. int main(int argc, char *argv[])
  22. {
  23.         CURL *curl;
  24.         CURLcode res;
  25.         struct FtpFile ftpfile={argv[2],NULL};  //初始化一个FtpFile结构
  26.         curl_global_init(CURL_GLOBAL_DEFAULT);

  27.         curl = curl_easy_init();
  28.         if(curl)
  29.         {
  30.                 curl_easy_setopt(curl, CURLOPT_URL,argv[1]);
  31.                 curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, my_fwrite);
  32.                 curl_easy_setopt(curl, CURLOPT_WRITEDATA, &ftpfile);  //给相关函数的第四个参数 传递一个结构体的指针
  33.                 curl_easy_setopt(curl, CURLOPT_VERBOSE, TRUE);  //CURLOPT_VERBOSE 这个选项很常用 用来在屏幕上显示对服务器相关操作返回的信息

  34.                 res = curl_easy_perform(curl);
  35.                 curl_easy_cleanup(curl);

  36.                 if(CURLE_OK != res)
  37.                         fprintf(stderr, "curl told us %d\n", res);
  38.         }
  39.         if(ftpfile.stream)
  40.         fclose(ftpfile.stream);
  41.         curl_global_cleanup();

  42.         return 0;
  43. }
复制代码


gcc -o 003 -Wall 003.c -lcurl
./003  ftp://202.96.64.144/fei.gif    fei.gif


我有个匿名的ftp的网址 将目录下的fei.gif 保存到本地 也叫fei.gif


此外还有curl_escape curl_unescape函数用来转换 汉字成 %XX 这种类型.以及转换回来.如果要下载带有汉字的文件.先要调用将字符串转换一下.

curl 库 还有好多功能. 有待大家来挖掘.
作者: luojiannx    时间: 2005-07-31 10:01
标题: 对CURL的一些研究
建议版主加精华
作者: 双眼皮的猪    时间: 2005-07-31 10:05
标题: 对CURL的一些研究
    
好东东~建议加精^_^
作者: kernelxu    时间: 2005-07-31 10:10
标题: 对CURL的一些研究
嗯,写的很不错,先收藏再研究。建议版主给个精华吧!
作者: mq110    时间: 2005-07-31 10:26
标题: 对CURL的一些研究
谢谢 楼上的各位支持.谢谢斑竹.
作者: wwy    时间: 2005-07-31 10:29
标题: 对CURL的一些研究
精华! 支持
作者: surfzsl    时间: 2005-07-31 10:37
标题: 对CURL的一些研究
[quote]原帖由 "mq110"]谢谢 楼上的各位支持.谢谢斑竹.[/quote 发表:

感谢CU感谢我忠实的READER感谢大家的支持
......
        
恩,不错.楼主继续,发掘出更好的东东给大家
        
作者: homesp    时间: 2005-07-31 11:30
标题: 对CURL的一些研究
谢谢楼主,建议加精,收下了
作者: bitmilong    时间: 2005-11-17 22:48
哈哈,110,俺正好用到,谢了


Btw:真奇怪,花了俩CU币的搜的,居然搜不到你这文章,用Google搜文章名也没搜到,最后俺还是在别的坛子上找到的这个贴子的翻版,因为内容里含CU,所以认定是CU上的,然后又用内容搜索才搜到在CU上的,哎...

原来CU的搜索是区分大小写的,汗~

[ 本帖最后由 bitmilong 于 2005-11-17 23:23 编辑 ]
作者: lenovo    时间: 2005-11-17 22:53
原帖由 bitmilong 于 2005-11-17 22:48 发表
哈哈,110,俺正好用到,谢了


Btw:真奇怪,花了俩CU币的搜的,居然搜不到你这文章,用Google搜文章名也没搜到,最后俺还是在别的坛子上找到的这个贴子的翻版,因为内容里含CU,所以认定是CU上的,然后又用内容搜索才搜 ...

据说现在搜索不要cu币?
作者: bitmilong    时间: 2005-11-17 23:00
原帖由 lenovo 于 2005-11-17 22:53 发表

据说现在搜索不要cu币?




汗一个,CU币整D俺半年都不敢搜东西,原来现在都不用了
作者: bitmilong    时间: 2005-11-17 23:07
借机会问下110,glibcurl有研究没?
作者: lenovo    时间: 2005-11-17 23:09
原帖由 bitmilong 于 2005-11-17 23:00 发表




汗一个,CU币整D俺半年都不敢搜东西,原来现在都不用了

说错了别找我呀。:wink:
作者: er    时间: 2005-11-18 08:41
支持
作者: mageguoshi    时间: 2005-11-18 10:14
收藏。顶!
作者: Solaris12    时间: 2005-11-18 10:29
原帖由 mq110 于 2005-7-31 09:43 发表
前两天看到有人求客户端socket 发HTTP包的代码,受flw版主启发找了一些perl的资料,不过对perl 还是不太熟悉。也没有深入的研究。无意中发现了libcurl.so 这个库。去google上搜索发现它是处理客户端发送HTTP请求的 ...



不错,用curl加上shell可以很轻松的作出来测试http和https服务器的test suite.
作者: redog    时间: 2005-11-18 10:53
标题: 回复 10楼 surfzsl 的帖子
好呀 支持精华!
作者: alex99051    时间: 2006-02-24 13:58
gcc的时候出现这个错误,是什么啊?

/tmp/ccCMAPrW.o(.text+0x16): In function `main':
: undefined reference to `curl_global_init'
/tmp/ccCMAPrW.o(.text+0x3e): In function `main':
: undefined reference to `curl_easy_init'
/tmp/ccCMAPrW.o(.text+0x5f): In function `main':
: undefined reference to `curl_easy_setopt'
/tmp/ccCMAPrW.o(.text+0x6d): In function `main':
: undefined reference to `curl_easy_perform'
/tmp/ccCMAPrW.o(.text+0x7e): In function `main':
: undefined reference to `curl_easy_cleanup'
collect2: ld returned 1 exit status

知道了,gcc的时候 -lcurl

[ 本帖最后由 alex99051 于 2006-2-24 14:31 编辑 ]
作者: mq110    时间: 2006-02-24 14:26
-lcurl
作者: alex99051    时间: 2006-02-24 14:43
标题: 回复 22楼 mq110 的帖子
看的时候不仔细,愧对斑竹了:)
作者: chenlihuiabc    时间: 2006-02-24 15:46
我也正在研究,谢谢,收藏
作者: bleem1998    时间: 2006-02-24 17:54
收藏
支持斑竹
作者: net_robber    时间: 2006-02-24 18:38
今天看了一天代码了,累了,明天再看
作者: xuzhangri    时间: 2006-02-27 18:08
不错得,研究了半天,真累
作者: 守夜人    时间: 2006-03-03 20:42
太有用了谢谢版主....
请教版主,我想用socket实现你上面类似的可以显示网站首页的功能,不知应该如何实现,能不能大致讲讲实现方法?谢谢了
作者: wxgchinaunix    时间: 2006-03-28 12:00
好人,绝对精华!
作者: GodPig    时间: 2008-01-10 20:33
不能不顶!!!!!!!!!!!!!!!!!!!!
作者: frank_seng    时间: 2009-06-11 21:17
标题: 回复 #1 mq110 的帖子
补充一个抽取HTTP Header的例子,LZ别见怪哈:
  
1 #include <stdio.h>
2 #include <stdlib.h>
3 #include <unistd.h>
4 #include <curl/curl.h>
5 #include <curl/types.h>
6 #include <curl/easy.h>
7
8
9 size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)
10 {
11     printf("%s--------------------------------------------------------\n",  ptr);
12     char* ptr1 = (char*)ptr;
13     if (ptr1[0] == '\r' || ptr1[1] == '\n')
14         return 0;
15
16     return nmemb;
17 }
18
19
20 int main(int argc, char *argv[])
21 {
22      CURL *curl;
23      curl_global_init(CURL_GLOBAL_ALL);
24      curl=curl_easy_init();
25      curl_easy_setopt(curl, CURLOPT_URL, argv[1]);
26
27      curl_easy_setopt(curl, CURLOPT_HEADERFUNCTION, write_data);   
28      curl_easy_perform(curl);
29      curl_easy_cleanup(curl);
30      
31      exit(0);
32 }


说明:在 cURL 网站的 curl_easy_setopt.3 -- man page 中可以看到如下字段:

CURLOPT_HEADERFUNCTION

Function pointer that should match the following prototype: size_t function( void *ptr, size_t size, size_t nmemb, void *stream);. This function gets called by libcurl as soon as it has received header data. The header callback will be called once for each header and only complete header lines are passed on to the callback. Parsing headers should be easy enough using this. The size of the data pointed to by ptr is size multiplied with nmemb. Do not assume that the header line is zero terminated! The pointer named stream is the one you set with the CURLOPT_WRITEHEADER option. The callback function must return the number of bytes actually taken care of , or return -1 to signal error to the library (it will cause it to abort the transfer with a CURLE_WRITE_ERROR return code).



[ 本帖最后由 frank_seng 于 2009-6-11 21:38 编辑 ]
作者: nohypo    时间: 2009-11-17 12:52
绝对好用,我用php的curl写过机器人,估计用c写效率更高,谢谢谢谢。。。
作者: leshy    时间: 2009-11-18 22:40
又顶起来了?我再顶顶。。。。看来要多学习学习了!!!
作者: herocsz    时间: 2011-08-23 15:17
本帖最后由 herocsz 于 2011-08-23 15:19 编辑

写的不错。
有curl发送form表单的吗?

网页源码发送函数loginForm.submit();

不知道用curl如何发送?
作者: lk624424108    时间: 2011-10-22 13:00
提示: 作者被禁止或删除 内容自动屏蔽
作者: ohyeahbbs    时间: 2012-07-12 17:46
问下楼主,像002.c,
如果参数是www.baidu.com就可以保存页面内容
如果入参是http://news.sohu.com/20101201/n278039496.shtml 就下载不了页面。这是为什么呢?想要下载这页面该怎么办?
作者: 流氓无产者    时间: 2012-07-13 09:03
有些失望,以为是对源代码的理解,却只是应用
作者: xiaoyanilw    时间: 2013-02-28 15:59
有代理相关的总结吗?可以说说代理,多谢楼主了
作者: op992170097    时间: 2013-04-16 21:04
好帖子!还想请教LZ一些问题,不知道你还上不上论坛...
请问cURL可以实现http包的接收分片和写入缓存区吗?应该如何实现呢?
谢谢!
作者: op992170097    时间: 2013-04-16 21:06
回复 31# frank_seng

你好!
请问cURL可以实现http包的接收分片和写入缓存区吗?应该如何实现呢?
谢谢!

   
作者: twtcom001    时间: 2013-04-24 17:36
回复 22# mq110


    求教 因为centos5 curl是7.15,我需要7.19以上,所以我用源码包编译了7.30  ,出现跟(http://bbs.chinaunix.net/thread-586014-3-1.html)一样报错 -lcurl  不管用 ,我改了include 路径也不好使
作者: ps1987    时间: 2013-09-17 15:22
好东西啊~~~~~~~~~~~~
作者: kdkgod    时间: 2013-09-29 10:32
很好的一个帖子!
作者: kdkgod    时间: 2013-09-29 10:32
CURL就是例子太少了吧,最近还想用curl封装一个ftp客户端呢




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2