Chinaunix

标题: C语言版网络爬虫 [打印本页]

作者: qteqpid    时间: 2013-01-07 11:47
标题: C语言版网络爬虫
代码是在linux环境下用c/c++语言写的,结构清晰,使用了多线程、高级多路IO复用、socket网络编程等技术和一些哈希算法,爬取性能还OK。目前还在不断地进行细节优化。
希望看过代码的人可以相互切磋交流。
http://hi.baidu.com/qteqpid_pku/item/a09d923c5ff81af2a8842808
作者: pitonas    时间: 2013-01-11 15:14
结构清晰,高手。
作者: 你还未够水准呢    时间: 2013-01-12 11:03
不错  爬虫 蛮好玩的
作者: crazyhadoop    时间: 2013-01-14 10:09
回复 1# qteqpid


    把内容贴过来吧~
作者: thelordsaves    时间: 2013-01-15 09:15
非常好,顶!!!!
作者: thelordsaves    时间: 2013-01-15 09:17
楼主能分享一些网络爬虫相关的书和材料吗?
作者: manULinux    时间: 2013-01-17 11:03
下来学习一下。哈哈
作者: cuiwei000    时间: 2013-02-22 10:36
cuiwei@cuiwei-virtual-machine:~/Downloads/spiderq-master/modules$ make
g++  -c -O2 -DNDEBUG -fPIC -I../src -Wall   domainlimit.cpp
In file included from domainlimit.cpp:2:0:
../src/url.h:4:19: fatal error: event.h: No such file or directory
compilation terminated.
make: *** [domainlimit.o] Error 1

作者: cuiwei000    时间: 2013-02-22 10:38
我再ubuntu11.04 下make 的有错误啊

作者: hellbo    时间: 2013-03-05 16:36
编译不过呀。。。。
作者: shance3c    时间: 2013-03-22 11:12
楼主你好,编译报错如下:
dso.o: In function `dso_load(char const*, char const*)':
dso.cpp.text+0x4d): undefined reference to `dlopen'
dso.cpp.text+0x5d): undefined reference to `dlsym'
dso.cpp.text+0xc4): undefined reference to `dlerror'
dso.cpp.text+0x16f): undefined reference to `dlerror'
url.o: In function `urlparser(void*)':
url.cpp.text+0xf4a): undefined reference to `event_init'
url.cpp.text+0xf51): undefined reference to `evdns_init'
url.cpp.text+0xf73): undefined reference to `evdns_resolve_ipv4'
url.cpp.text+0xf7: undefined reference to `event_dispatch'
url.cpp.text+0xf80): undefined reference to `event_base_free'
url.o: In function `dns_callback(int, char, int, int, void*, void*)':
url.cpp.text+0xfee): undefined reference to `event_loopexit'
threads.o: In function `create_thread(void* (*)(void*), void*, unsigned long*, pthread_attr_t*)':
threads.cpp:(.text+0x4c): undefined reference to `pthread_create'
threads.cpp:(.text+0x9: undefined reference to `pthread_attr_setstacksize'
collect2: ld returned 1 exit status
make[1]: *** [spider] Error 1

作者: yshihyu    时间: 2013-05-06 00:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: wallwind    时间: 2013-05-08 22:48
楼主牛逼。爬虫什么原理?
作者: zhjun2512    时间: 2015-08-04 11:22
链接失效了,现在链接是什么
作者: wqx0532    时间: 2015-11-13 15:50
地址无效了 呵呵
作者: wq4113    时间: 2015-11-16 10:50
学习一下
作者: zzhawjj    时间: 2015-11-16 13:09
下载不了你的代码
所有爬虫的问题在于url的hash表太大
不知道你是怎么解决的




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2