免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1731 | 回复: 4
打印 上一主题 下一主题

perl多进程问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-04-01 10:46 |只看该作者 |倒序浏览
我想用多进程提取网页数据,看了仙子写的多进程,自己改了一下,感觉不行,改成了一个循环,哎!
请高手指教!谢谢

网页内容只与http://www.ncbi.nlm.nih.gov/projects/SNP/snp_gene.cgi?rs=$snp中的$snp有关,所以我把它们放在一个单独的文件<>中

#!/usr/bin/perl

use strict;
use warnings;
use LWP::Simple;


print "Starting main program\n";
my @childs;

while(<>){
chomp;

for ( my $count = 1; $count <= 10; $count++) {
        my $pid = fork();
        if ($pid) {
        # parent
        #print "pid is $pid, parent $$\n";
        push(@childs, $pid);
        } elsif ($pid == 0) {
                # child
                get_number($_,$count);
                exit 0;
        } else {
                die "couldnt fork: $!\n";
        }



}


}



foreach (@childs) {
        my $tmp = waitpid($_, 0);
       print "done with pid $tmp\n";

}      

print "End of main program\n";


sub get_number {
        my ($snp,$i) = @_;
        my $url = "http://www.ncbi.nlm.nih.gov/projects/SNP/snp_gene.cgi?rs=$snp";

        $_=get($url);

        if(/\"snp_id\" : (.*),\n/){

                print  "$snp\t$1\n";

               

        

        }
}

论坛徽章:
0
2 [报告]
发表于 2010-04-01 11:14 |只看该作者
不知道为何外层加了while(<>) 循环? 我去掉了外层循环,另外一些修改看注释吧

  1. #!/usr/bin/perl

  2. use strict;
  3. use warnings;
  4. use LWP::Simple;

  5. print "Starting main program\n";
  6. my @childs;

  7. for ( my $count = 1; $count <= 10; $count++ ) {
  8.     my $pid = fork();
  9.     if ($pid) {

  10.         # parent
  11.         print "pid is $pid, parent $\n";
  12.         push( @childs, $pid );
  13.     }
  14.     elsif ( $pid == 0 ) {

  15.         # child
  16.         get_number($count);  #为何要传$_, 在child中,$_ 还没有初始化
  17.         exit 0;
  18.     }
  19.     else {
  20.         die "couldnt fork: $!\n";
  21.     }

  22. }

  23. foreach (@childs) {
  24.     my $tmp = waitpid( $_, 0 );
  25.     print "done with pid $tmp\n";

  26. }

  27. print "End of main program\n";

  28. sub get_number {
  29.     my ($snp) = @_;
  30.     print "***$snp \n\n";
  31.     my $url = "http://www.ncbi.nlm.nih.gov/projects/SNP/snp_gene.cgi?rs=$snp";

  32.     $_ = get($url);

  33.     if (/\"snp_id\"\s*:\s*(.*),\n/) {

  34.         print "$snp\t$1\n";

  35.     }
  36. }

复制代码

论坛徽章:
0
3 [报告]
发表于 2010-04-01 11:27 |只看该作者
回复 2# climby

谢谢!

    我加while(<>)是因为我有好多个$snp, 也就是有好多个网页,以前我用多线程下载,但是现在perl5.10中不能用多线程了,只好改为多进程,呵呵

论坛徽章:
0
4 [报告]
发表于 2010-04-01 11:45 |只看该作者
回复  climby

谢谢!

    我加while()是因为我有好多个$snp, 也就是有好多个网页,以前我用多线程下 ...
liuguiyou1981 发表于 2010-04-01 11:27



    如果是处理多个网页,多进程应该设在页面级别上,也就是1个进程处理一个页面,对于单个页面的处理,没有耗时复杂的东西需要处理,单进程来完成足够

论坛徽章:
0
5 [报告]
发表于 2010-04-01 12:45 |只看该作者
回复 4# climby


    恩  我理解了,以前我一直多线程下载数据, 是很快,为了提高效率,我决定采用多进程,这是第一次用,呵呵。谢谢了,我还是用一般的试试把
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP