- 论坛徽章:
- 9
|
本帖最后由 wlmqgzm 于 2015-10-28 19:43 编辑
爬虫软件, 主要看应用规模, 性能要求. 内部有很多细节的, 还有跟其他模块的接口.
语言: C ? C++? PHP? ..............
内部的参数就更多了, 是否支持 gzip等压缩格式, 提高带宽利用率,
异步IO是起码的吧, 同步代码实现异步IO, 或者 异步事件编程, 多线程, ????
是否 支持cookie, session等动态网页, 还是仅仅静态网页,
网页Follow 方式, 是否支持 三种禁止follow的设置
对存贮的解决, 压缩存储? 数据层接口?
取数据的速率, 响应时间, .......多个爬虫执行过程中的得到的动态变量, 是否存??
对多语言网页的识别和编码统一转换.....
网页免重复抓的方式?????
友善的爬虫, 每网站IP只允许一个爬虫, 每次间隔10秒种,
.....................
总之, 真正做过爬虫, 或者有做爬虫代码的知识的, 就知道, 完善的爬虫代码意味着什么?
呵呵呵, 我也没有做过C/C++代码的爬虫. 不过知道怎么做爬虫代码.....
我是老IT了 |
|