免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: laolun
打印 上一主题 下一主题

求助:Coro多线程采集网页的时候假死问题 [复制链接]

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
11 [报告]
发表于 2015-08-31 10:55 |只看该作者
104359176 发表于 2015-08-30 20:17
Perl 内置并不支持并发。第三方模块实现的并发,是真的并发吗?有真正支持并发(内置)的语言,要是我的话,就用支持并发的语言实现,并发涉及到底层线程和进程的调度,如果出了问题,不是语言本身的能力,很难跟踪调试。

最稳定的工具是语言,也是最可信赖的东西,要使用第三方模块,必须能跟踪其中的问题。


这个很多地方说的不对。你不了解 Coro

评分

参与人数 1可用积分 +30 收起 理由
王楠w_n + 30 每日积分奖励

查看全部评分

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
12 [报告]
发表于 2015-08-31 11:08 |只看该作者
采集个网页这样简单的任务,怎么“线程退出”都上来了。。。不需要显示调用 cancel

你代码我只看了前几行。尽量不要混用阻塞和非阻塞模块,不要用 LWP 的东西,用 AnyEvent::HTTP

Coro 这种精良程度的模块是不会出现在这么简单的任务上发生所谓“假死”的,一定是你哪没做对。

最后再次说明,Coro 是协程,是单线程单进程的。

评分

参与人数 2可用积分 +30 信誉积分 +50 收起 理由
laolun + 50 谢谢py版主指点!
王楠w_n + 30 每日回帖积分奖励

查看全部评分

论坛徽章:
12
射手座
日期:2014-10-02 11:31:29程序设计版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-25 06:20:00每日论坛发贴之星
日期:2016-05-24 06:20:00程序设计版块每日发帖之星
日期:2016-05-24 06:20:0015-16赛季CBA联赛之深圳
日期:2016-05-23 15:33:59程序设计版块每日发帖之星
日期:2016-05-20 06:20:00程序设计版块每日发帖之星
日期:2016-04-26 06:20:00神斗士
日期:2015-12-03 09:27:3215-16赛季CBA联赛之八一
日期:2016-12-29 09:56:05
13 [报告]
发表于 2015-08-31 14:49 |只看该作者
回复 11# py
第三方模块实现的并发
是真的并发吗

论坛徽章:
16
CU十二周年纪念徽章
日期:2013-10-24 15:41:3415-16赛季CBA联赛之广东
日期:2015-12-23 21:21:55青铜圣斗士
日期:2015-12-05 10:35:30黄金圣斗士
日期:2015-11-26 20:42:16神斗士
日期:2015-11-19 12:47:50每日论坛发贴之星
日期:2015-11-18 06:20:00程序设计版块每日发帖之星
日期:2015-11-18 06:20:002015亚冠之城南
日期:2015-11-10 19:10:492015亚冠之萨济拖拉机
日期:2015-10-28 18:47:282015亚冠之柏太阳神
日期:2015-08-30 17:21:492015亚冠之山东鲁能
日期:2015-07-07 18:48:39摩羯座
日期:2014-08-29 23:01:42
14 [报告]
发表于 2015-08-31 14:53 |只看该作者
回复 13# patagonia2


   不是真的并发 其实你可以看coro的文档,里面解释啦

论坛徽章:
12
射手座
日期:2014-10-02 11:31:29程序设计版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-25 06:20:00每日论坛发贴之星
日期:2016-05-24 06:20:00程序设计版块每日发帖之星
日期:2016-05-24 06:20:0015-16赛季CBA联赛之深圳
日期:2016-05-23 15:33:59程序设计版块每日发帖之星
日期:2016-05-20 06:20:00程序设计版块每日发帖之星
日期:2016-04-26 06:20:00神斗士
日期:2015-12-03 09:27:3215-16赛季CBA联赛之八一
日期:2016-12-29 09:56:05
15 [报告]
发表于 2015-08-31 14:57 |只看该作者
回复 14# tc1989tc


perl是有真的并发吗

论坛徽章:
1
程序设计版块每日发帖之星
日期:2015-09-02 06:20:00
16 [报告]
发表于 2015-08-31 16:02 |只看该作者
本帖最后由 laolun 于 2015-08-31 16:03 编辑

问题解决了,用
  1. AnyEvent::HTTP
复制代码
搞定。速度比之前的快很多。
附上io那部分代码:
  1. sub thread_io{
  2.         while (1)
  3.         {
  4.             if ($#data_queue == -1)
  5.             {
  6.                 Coro::Timer::sleep(1);
  7.                 next;
  8.             }
  9.             my $data = shift(@data_queue);
  10.             ++$processing_count;
  11.             http_request GET=>$data, headers=>{ "user-agent" => 'Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0'}, timeout=>60, sub {
  12.                 my ($body, $hdr)=@_;
  13.                 if($hdr->{Status} =~ /^2/){
  14.                     print $data."\t"."success\n";
  15.                     push(@result_queue, "$data\t".do_sth(filter($body)));
  16.                 }else{
  17.                     print $data."\t"."failed\n";
  18.                     append("failed.txt", $data."\n");
  19.                 }
  20.             };
  21.             --$processing_count;
  22.         }
  23. }
复制代码
删掉了LWP模块,删掉了监控线程,
  1. AnyEvent::HTTP
复制代码
的timeout会自动结束超时的连接。
膜拜版主,谢谢!学艺不精,需要多多努力啊,都准备去研究java了,真惭愧!

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
17 [报告]
发表于 2015-08-31 20:36 |只看该作者
patagonia2 发表于 2015-08-31 14:49
回复 11# py
第三方模块实现的并发
是真的并发吗


什么叫“真的并发”?
Coro 当然是并发的。
但是 Coro 是单进程单线程的,和 NodeJS 是一样的,实际上底层使用的东西也是一样的。

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
18 [报告]
发表于 2015-09-03 12:21 |只看该作者
以抓网页为例,从目标网站的角度,AE/coro一个进程可以同时抓上千网页,就是并发
如果你从cpu的角度,这1000个协程确实是串行时分复用。
但是进程、线程并发,同样cpu是按时间片调度的,只不过多核情况稍有不同。
要利用多核,就多进程+协程。
golang/erlang直接可以利用多核,但是实现的麻烦事也多不少。协程之间还要解决互斥。
nodejs,coro就没这问题。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP