免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4550 | 回复: 9
打印 上一主题 下一主题

i/o多路转接和多线程问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-06-26 13:38 |只看该作者 |倒序浏览
我想写一个爬虫程序,不知道用上述哪种方式比较好,觉得差不多

论坛徽章:
0
2 [报告]
发表于 2007-06-26 14:15 |只看该作者
差不多。线程要简单一些吧。

论坛徽章:
0
3 [报告]
发表于 2007-06-26 14:48 |只看该作者
原帖由 limodou 于 2007-6-26 14:15 发表
差不多。线程要简单一些吧。


从Larbin看互联网爬虫设计http://www.example.net.cn/search/一文中看到

多线程阻塞。建立多个阻塞的线程,分别请求不同的url。相对于第一种方法,它可以更有效的利用机器的资源,特别是网络资源,因为无数线程在同时工作,所以网络会比较充分的利用,但同时对机器CPU资源的消耗也是比较大,在用户级多线程间的频繁切换对于性能的影响已经值得我们考虑。

单线程非阻塞。这是目前使用的比较多的一种做法,无论在client还是server都有着广泛的应用。在一个线程内打开多个非阻塞的连接,通过poll/epoll/select对连接状态进行判断,在第一时间响应请求,不但充分利用了网络资源,同时也将本机CPU资源的消耗降至最低。这种方法需要对dns请求,连接,读写操作都采用异步非阻塞操作,其中第一种比较复杂,可以采用adns作为解决方案,后面三个操作相对简单可以直接在程序内实现。

似乎单线程非阻塞要好些,但是真的是这样么?

论坛徽章:
0
4 [报告]
发表于 2007-06-26 15:34 |只看该作者
limdou说的不错,用thread可以很好的封装逻辑,相信很多人都写过thread/worker/pool的程序,limdou似乎也写过
如同python-cn列表讨论过的一样,小型爬虫的瓶颈在机器性能和带宽上,而比较大的爬虫则在数据的处理上(如数据库操作)
所以你要写的爬虫如果实在看重效率,可以尝试用select/poll+nonblock的方式。我也写过,发现不值得。pycurl的测试显示, 快不了15%。而代码不好维护。

论坛徽章:
7
荣誉版主
日期:2011-11-23 16:44:17子鼠
日期:2014-07-24 15:38:07狮子座
日期:2014-07-24 11:00:54巨蟹座
日期:2014-07-21 19:03:10双子座
日期:2014-05-22 12:00:09卯兔
日期:2014-05-08 19:43:17卯兔
日期:2014-08-22 13:39:09
5 [报告]
发表于 2007-06-26 15:57 |只看该作者
可参考twist,记得它就采用的单线程。

论坛徽章:
0
6 [报告]
发表于 2007-06-26 16:29 |只看该作者
我是比较提倡多线程的,IO多路转接的方法造成程序复杂度增加很多。

论坛徽章:
0
7 [报告]
发表于 2007-06-26 16:32 |只看该作者
多线程的方法并不会对CPU带来过多的消耗,因为阻塞的过程其实并不消耗CPU。当然CPU占用会根据你开的线程数量的多少有变化,毕竟同时处理几个连接和单个连接比还是不一样的。

论坛徽章:
0
8 [报告]
发表于 2007-06-26 22:32 |只看该作者
多线程相对单线程势必是占更多资源的!这点是毫无疑问的!关键是看具体做什么!

论坛徽章:
0
9 [报告]
发表于 2007-06-27 14:11 |只看该作者
倾向于一cpu一线程,

然后线程内做select/poll+nonblock.

写起来有些麻烦,不过效果不错.

论坛徽章:
0
10 [报告]
发表于 2007-06-27 14:20 |只看该作者
谢谢大家的指点啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP