免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › i/o多路转接和多线程问题

最近访问板块

发新帖

查看: 4550 | 回复: 9

上一主题

下一主题

i/o多路转接和多线程问题 [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2007-06-26 13:38 |只看该作者 |倒序浏览

我想写一个爬虫程序，不知道用上述哪种方式比较好，觉得差不多

文库|博客

论坛徽章:: 0

2楼 [报告]

发表于 2007-06-26 14:15 |只看该作者

差不多。线程要简单一些吧。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

3楼 [报告]

发表于 2007-06-26 14:48 |只看该作者

原帖由 limodou 于 2007-6-26 14:15 发表
差不多。线程要简单一些吧。

从Larbin看互联网爬虫设计http://www.example.net.cn/search/一文中看到

多线程阻塞。建立多个阻塞的线程，分别请求不同的url。相对于第一种方法，它可以更有效的利用机器的资源，特别是网络资源，因为无数线程在同时工作，所以网络会比较充分的利用，但同时对机器CPU资源的消耗也是比较大，在用户级多线程间的频繁切换对于性能的影响已经值得我们考虑。

单线程非阻塞。这是目前使用的比较多的一种做法，无论在client还是server都有着广泛的应用。在一个线程内打开多个非阻塞的连接，通过poll/epoll/select对连接状态进行判断，在第一时间响应请求，不但充分利用了网络资源，同时也将本机CPU资源的消耗降至最低。这种方法需要对dns请求，连接，读写操作都采用异步非阻塞操作，其中第一种比较复杂，可以采用adns作为解决方案，后面三个操作相对简单可以直接在程序内实现。

似乎单线程非阻塞要好些，但是真的是这样么?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

4楼 [报告]

发表于 2007-06-26 15:34 |只看该作者

limdou说的不错,用thread可以很好的封装逻辑,相信很多人都写过thread/worker/pool的程序，limdou似乎也写过

如同python-cn列表讨论过的一样，小型爬虫的瓶颈在机器性能和带宽上，而比较大的爬虫则在数据的处理上（如数据库操作）
所以你要写的爬虫如果实在看重效率，可以尝试用select/poll+nonblock的方式。我也写过，发现不值得。pycurl的测试显示，快不了15%。而代码不好维护。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 7

荣誉版主
日期:2011-11-23 16:44:17

子鼠
日期:2014-07-24 15:38:07

狮子座
日期:2014-07-24 11:00:54

巨蟹座
日期:2014-07-21 19:03:10

双子座
日期:2014-05-22 12:00:09

卯兔
日期:2014-05-08 19:43:17

卯兔
日期:2014-08-22 13:39:09

5楼 [报告]

发表于 2007-06-26 15:57 |只看该作者

可参考twist，记得它就采用的单线程。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

6楼 [报告]

发表于 2007-06-26 16:29 |只看该作者

我是比较提倡多线程的，IO多路转接的方法造成程序复杂度增加很多。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

7楼 [报告]

发表于 2007-06-26 16:32 |只看该作者

多线程的方法并不会对CPU带来过多的消耗，因为阻塞的过程其实并不消耗CPU。当然CPU占用会根据你开的线程数量的多少有变化，毕竟同时处理几个连接和单个连接比还是不一样的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

8楼 [报告]

发表于 2007-06-26 22:32 |只看该作者

多线程相对单线程势必是占更多资源的!这点是毫无疑问的!关键是看具体做什么!

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

9楼 [报告]

发表于 2007-06-27 14:11 |只看该作者

倾向于一cpu一线程，

然后线程内做select/poll+nonblock.

写起来有些麻烦，不过效果不错.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

10楼 [报告]

发表于 2007-06-27 14:20 |只看该作者

谢谢大家的指点啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

发新帖

Chinaunix › 论坛 › 程序设计 › Python › i/o多路转接和多线程问题

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP