[原创] 用 C 语言编写一个网络蜘蛛来搜索网上出现的电子邮件地址 [复制链接]

论坛徽章:: 0

31楼 [报告]

发表于 2006-09-07 12:39 |只看该作者

原帖由 flw 于 2006-9-2 15:09 发表
像这一类程序，耗时的操作主要在于网络通讯上，
处理本身是不占用什么时间的，
反过来灵活性和扩展性就显得至关重要，
用 C 来做爬虫，的确罕见！

BTW：可以请蜘蛛给大家介绍一下。

几个出名的开源引擎的爬虫都是用 c 或 c++ 或 java的
其实wget就是一个简单的爬虫

perl可以考虑做为抓取过来以后，保存的数据的协议分析

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhoulifa

丰衣足食

论坛徽章:: 0

32楼 [报告]

发表于 2006-09-07 12:48 |只看该作者

原帖由 GNM 于 2006-9-7 12:28 发表
程序运行也有问题(as4上编译)
[root@test09.news.sina ~]# ./spdir http://bn.sina.com.cn/pv/index.html
GetHost error from '蜜窨僳窨'

打印出这行提示是这一句程序：
if(ret) {if(DEBUG) fprintf(stdout, "GetHost error from '%s'\n", argv); exit(0);}

而程序里用的是argv，理论上应该是http://bn.sina.com.cn/pv/index.html啊
我写了测试代码：

#include <stdio.h>

#include <string.h>

#include <stdlib.h>

char e[2] = "@/";

void GetMemory(char ** myanchor, int len)

{

if(!(*myanchor)) (*myanchor) = (char *)malloc(len + 1);

else (*myanchor) = (char *)realloc((void *)(*myanchor), len + 1);

memset((*myanchor), 0, len + 1);

}

void Rstrchr(char * s, int x, char ** d)

{

int len = strlen(s) - 1;

while(len >= 0) {

if(x == s[len]) {(*d) = s + len; return;}

len--;

}

(*d) = 0;

}

int GetHost(char * src, char ** web, char ** file, int * port, char ** dir)  {

  char * pA, * pB, * pC;

  int len;

  *port = 0;

  if(!(*src))  return -1;

  pA = src;

  if(!strncmp(pA, "http://", strlen("http://")))  pA = src+strlen("http://");

  /* else if(!strncmp(pA, "https://", strlen("https://")))  pA = src+strlen("https://"); */

  else return 1;

  pB = strchr(pA, '/');

  if(pB)  {

len = strlen(pA) - strlen(pB);

GetMemory(web, len);

memcpy((*web), pA, len);

if(*(pB+1))  {

   Rstrchr(pB + 1, '/', &pC);

   if(pC) len = strlen(pB + 1) - strlen(pC);

   else len = 0;

   if(len > 0) {

      GetMemory(dir, len);

      memcpy((*dir), pB + 1, len);

      if(pC + 1) {

      len = strlen(pC + 1);

      GetMemory(file, len);

      memcpy((*file), pC + 1, len);

      }

      else {

      len = 1;

      GetMemory(file, len);

      memcpy((*file), e, len);

      }

   }

   else {

      len = 1;

      GetMemory(dir, len);

      memcpy((*dir), e + 1, len);

      len = strlen(pB + 1);

      GetMemory(file, len);

      memcpy((*file), pB + 1, len);

   }

}

else {

   len = 1;

   GetMemory(dir, len);

   memcpy((*dir), e + 1, len);

   len = 1;

   GetMemory(file, len);

   memcpy((*file), e, len);

}

  }

  else  {

len = strlen(pA);

GetMemory(web, len);

memcpy((*web), pA, strlen(pA));

len = 1;

GetMemory(dir, len);

memcpy((*dir), e + 1, len);

len = 1;

GetMemory(file, len);

memcpy((*file), e, len);

  }

  pA = strchr((*web), ':');

  if(pA)  *port = atoi(pA + 1);

  else *port = 80;

  return 0;

}

int main(int argc, char ** argv)

{

int ret = 0, WebPort = 0;

char * WebHost = 0, * PageAddress = 0, * WebDir = 0;

ret = GetHost(argv[1], &WebHost, &PageAddress, &WebPort, &WebDir); /* Get web page info */

if(ret) {fprintf(stdout, "GetHost error from '%s'\n", argv[1]); exit(0);}

else fprintf(stdout, "'%s' => %s:%d %s %s\n", argv[1], WebHost, WebPort, WebDir, PageAddress);

return 0;

}

复制代码

运行结果为：

test@locale:/source/example/c$ gcc gethost.c -Wall
test@locale:/source/example/c$ ./a.out http://bn.sina.com.cn/pv/index.html
'http://bn.sina.com.cn/pv/index.html' => bn.sina.com.cn:80 pv index.html

GNM，你在你电脑上试试这段代码看行不行

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhoulifa

丰衣足食

论坛徽章:: 0

33楼 [报告]

发表于 2006-09-07 12:54 |只看该作者

原帖由 cmzhubill 于 2006-9-6 20:29 发表
可以在开源的爬虫，例如larbin的基础上稍作修改就能达到这个目的啊

larbin是C＋＋写的，效率非常高。

多谢提供一份源码参考！

我下载了个larbin-2.6.3来，不过编译通不过，adns__parse_domain的申明和实现不一致
申明为internal.h:570行：
adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
                           vbuf *vb, parsedomain_flags flags,
                           const byte *dgram, int dglen, int *cbyte_io, int max);

实现却为parse.c:114行：
adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
                           vbuf *vb, adns_queryflags flags,
                           const byte *dgram, int dglen, int *cbyte_io, int max)
我学习学习这份代码再说吧，原理不会差很多吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cabbage_rose

白手起家

论坛徽章:: 0

34楼 [报告]

发表于 2006-09-07 14:19 |只看该作者

学习

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

GNM

稍有积蓄

论坛徽章:: 0

35楼 [报告]

发表于 2006-09-07 16:27 |只看该作者

[test@root]$ ./a.out http://bn.sina.com.cn/pv/index.html
'http://bn.sina.com.cn/pv/index.html' => bn.sina.com.cn:80 pv index.html

楼主测试代码通过,但原代码还是不行报错