论坛徽章:: 0

1楼 [报告]

发表于 2008-06-12 09:10 |显示全部楼层

https://sirch.svn.sourceforge.net/svnroot/sirch/trunk/crawler/

https://svn.lcuc.org.cn/public/svn-sirch/trunk/libcrawler/

我现在遇到的问题：
1. urlparser也就是LZ所说的从页面里提取出来的URL，我没有做特别详细的URL合法性验证
2. URL hash 列表的重复、权重等带来的效率问题
3. URL那么海量就必然使用pthread，但是如何有效创建有限的threads来应对海量的URL，毕竟去爬取海量的URL是长操作
4. 如何带套（Tor）

这样更多地爬取XXX网站

我的初始URL的来源是dmoz和搜狗lib

https://svn.lcuc.org.cn/public/svn-sirch/trunk/util/sirindex.h
https://svn.lcuc.org.cn/public/svn-sirch/trunk/util/sirindex.c

我的索引也存在效率问题，就一直没有往下做了
1. 汉语分词的字典比较小，地名、人名都没有收录
2. 从爬取下来的页面中快速搜索词语效率低下

涩兔子

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2008-06-12 13:03 |显示全部楼层

强烈关注

http://lcuc.org.cn/summer_code#comment-2243

1. URL解析，我是用POSIX regex找href=""的值，这样就需要判断值的有效性；当然还有时候还需要join一下parent URL，这个时候不合法的值就会造成join后的URL的爬取变得无意义；不过到底是合法性判断的开销大，还是爬取的开销大，我没有测试数据

2. URL的md5主要是方便cache_to_file，保证文件名的合法性，在URL list里，我还是使用的明文URL

3. 我现在的想法是
a. 把URL list分组
b. 控制pthread stack size

4. 索引中的用自己构造辞典list查找文件(html filter后的)中的词语来构建index的效率，咳，我前阵子google了快速排序，考虑用asm写效率最苛刻的东东，这个我是用测试数据的
https://svn.lcuc.org.cn/public/s ... est/test_sirindex.c
time test_sirindex需要大约7s，很不理想

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

涩兔子

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2008-06-12 17:33 |显示全部楼层

恩，正则主要是用于html filter，这样

1. 索引可以少做一些匹配查找
2. 搜索结果可以更加干净

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 发布一个单机版的spider,分布式版本还在开发中

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]