潜水一厮 发表于 2017-03-12 17:22

wlmqgzm 发表于 2017-03-13 15:09

如果是百度这样的公司爬虫软件 就很复杂, 单模块都超过上万行代码。
即使是单模块,要取的变量也很多,除了标准的页面外,还有大量的变量和功能, 多线程异步并发存取。。。。。。。。。。,总之,很复杂。

包括:第1个数据包的响应时间,用来判断对端服务器的响应速度
全部数据包的平均传输速率,判断对端服务器的带宽,
获取的对端服务器的时间,与标准时间的误差,用于判断对端服务器的维护程度。。。。

gzip / deflate 压缩格式,
页面分块传输的接收处理,

处理utf8与各种字符格式的转换,包括字符格式不一致,错误处理等等。

https处理
等等
页: [1]
查看完整版本: 写了一个拉勾的爬虫……