论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2018-04-03 10:31 |只看该作者 |倒序浏览

大家好，我写了个脚本但是脚本运行的特别慢，但是文件小的话（假设2000行左右）就可以马上运行出来，但是文件大就特别慢好几天了才出来一点点结果(400K左右)感觉不太正常，麻烦大家帮忙看看如何修改才能让它运行速度加快，自己也不怎么懂算法，再此谢过了：具体情况见下述我需要对一个4G左右大小的文件进行处理，该文件内容是这样的----

ID1  xxx  xxx xxx 50
ID1  xxx  xxx xxx 60                                  ID1  xxx  xxx xxx 60 即第5列是个分值，分值高则留下，分值一样则都保留，ID重复的次数是>=2, 绝大部分是>=2的
ID2  xxx  xxx xxx 50                                  ID2  xxx  xxx xxx 60
ID2  xxx  xxx xxx 60 最终需要得到右边结果 ID4  xxx  xxx xxx 60

ID3  xxx  xxx xxx 50                                  ID4  xxx  xxx xxx 60
ID3  xxx  xxx xxx 60                                  ID3  xxx  xxx xxx 60

ID3  xxx  xxx xxx 60                                  ID3  xxx  xxx xxx 60
ID4  xxx  xxx xxx 60
ID4  xxx  xxx xxx 60  （xxx所表示的是不一样的，所以只是ID 相同行不同）

while(<IN>){
chomp;
my($z,$c)=(split /\t/)[0,4];
$hash{$z}++;
if($hash{$z}==1){
      $hash2{$z}=$_;
      $hash4{$z}=$c;
   }
if($hash{$z}>1){
      $hash3{$z}=$_;
      $hash5{$z}=$c;
   }
}
foreach my $key2(sort keys %hash2){
   foreach my $key3(sort keys %hash3){
      if($key2 eq $key3){
         if($hash4{$key2}>$hash5{$key3}){
            print OUT "$hash2{$key2}\n";
         }
         if($hash4{$key2}<$hash5{$key3}){
            print OUT "$hash3{$key3}\n"
         }
         if($hash4{$key2}==$hash5{$key3}){
            print OUT "$hash2{$key2}\n$hash3{$key3}\n";
         }
   }
  }}

文库|博客

zhlong8

版主

论坛徽章:: 46

2楼 [报告]

发表于 2018-04-03 13:59 |只看该作者

你把所有数据都放内存里，4G的文件占用内存可能要40G到400G

如果有3个ID一样，你这代码不能正确处理。

优化思路：如果ID是排过序的，相同的连着内存占用就是O(1)常量，处理时间只跟文件行数相关O(n)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Chinaaa123

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2018-04-03 15:43 |只看该作者

回复 2# zhlong8
非常感谢你的回答

，谢谢！
文件我是已经提前排好序了的，您的思路是如果相同的ID连续出现，就赋值给一个常量（假设赋值给1），是这个意思么？这样一来也是要进行计算重复的次数的。
我再请教一个问题：脚本运行慢是因为我把文件的每一行都存进内存里，是if(....)判断后再将$_存入哈希里这里出错了是么，这样就是存进内存么？
这个是我写的另外一个脚本，我也是把$_存进$hash里面，文件也很大但是这个运行速度就快
while(<DATA>

{
chomp;
my($c,$d)=(split/\t/)[0,4];
$hash{$c}=$_; #这里也是将其存进内存么？
$hash2{$c}++;
$hash3{$c}=${d}
}

foreach my $key3(sort keys %hash3){ #还是遍历的时候会存进内存
if($hash2{$key3}>1){
      print OUT "$hash{$key3}\n";

}else{
      print OUTTTT "$hash{$key3}\n";
   }
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhlong8

版主

论坛徽章:: 46

4楼 [报告]

发表于 2018-04-03 23:26 |只看该作者

本帖最后由 zhlong8 于 2018-04-03 23:27 编辑

先写正确再优化啊。既然已经排过序了，一个ID一个ID的处理不就行了，根本不用保存到 hash 中去。

use 5.010;
use strict;
use warnings;
my $last_id = '';
my $last_score;
my @queue;
while (<>) {
my($id, $score) = (split /\t/)[0,4]; #每个字段位置固定的话可以用 substr
if ($id ne $last_id) { #处理完一组直接打印，无需保留中间结果
print for @queue;
@queue = $_; #等价于清空数组长度变为0，然后 $queue[0] = $_;
$last_id = $id;
$last_score = $score;
} elsif ($score == $last_score) {
push @queue, $_;
} elsif ($score > $last_score) {
$last_score = $score;
@queue = $_;
}
}
print for @queue;

复制代码

思路基本上就这样了，这么频繁的读写的话IO可能成为瓶颈，不过你要先测一下。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

laputa73

巨富豪门

论坛徽章:: 42

5楼 [报告]

发表于 2018-04-04 08:33 |只看该作者

我理解就是把最高分的id挑出来
那么用一个变量存最高分，用一个hash存分数等于最高分的id xxx xxx xxx
如果最高分变了，就清空hash，
这样从头到尾过一遍。
不需要排序吧。
perl的文本处理速度大约是1分钟1G左右。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

6楼 [报告]

发表于 2018-04-04 12:05 |只看该作者

回复 1# Chinaaa123

$ cat file
ID1  xx1  xxx xxx 50
ID1  xx2  xxx xxx 60
ID2  xx3  xxx xxx 50
ID2  xx4  xxx xxx 60
ID3  xx5  xxx xxx 50
ID3  xx6  xxx xxx 80
ID3  xx7  xxx xxx 80
ID4  xx8  xxx xxx 70
ID4  xx9  xxx xxx 70

$ perl get_max_val.pl file
ID1  xx2  xxx xxx 60
ID2  xx4  xxx xxx 60
ID3  xx6  xxx xxx 80
ID3  xx7  xxx xxx 80
ID4  xx8  xxx xxx 70
ID4  xx9  xxx xxx 70

$ cat get_max_val.pl

use strict;
use warnings;

# get max value and string by sorted data
my $sMax_val = 0;
my $sMax_str = "";
my $sId = "";

while(<>){
  chomp;
  next if m/^\s*$/;
  s/^\s+|\s+$//g;
  my @aData = split;
  if ($sId ne $aData[0]){
print $sMax_str if($sMax_str ne "");
$sMax_val = $aData[-1];
$sMax_str = "$_\n";
$sId = $aData[0];
next;
  }
  if ($sMax_val < $aData[-1]){
$sMax_val = $aData[-1];
$sMax_str = "$_\n";
next;
  }
  if ($sMax_val == $aData[-1]){
$sMax_str .= "$_\n";
next;
  }

}
print $sMax_str;