免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5480 | 回复: 12
打印 上一主题 下一主题

A,B文件对比,输出C文件,求高效算法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-05-19 11:34 |只看该作者 |倒序浏览
我昨天已经发了一贴,人气不高,今天再发一贴,并给出实例

A是明细文件,B是关键字文件,
根据A的第二列值(逗号分隔),去B(只有一列)的关键字文件匹配,存在,则输出到C文件,
A,B,C的样例数据:
A文件:
123,B,343Y65
321,C,6547657
435,D,23R4RT353
678,A,423242

B文件:
A
B

C文件:
123,B,343Y65
678,A,423242

具体算法:
sub filterFile
{
        my ($processFile,$filterFile1,$outputFile) = @_;
        my %hashFile;
       
        open (OUTFILE, ">>${outputFile}") or die "can't open file: $outputFile";
       
        open FH, "<$filterFile1" or die "can't open file: $filterFile1";
    while (<FH>)
     {
         chomp;
        $hashFile{$_} = 1;
     }
    close (FH);
       
        open FH, "<$processFile" or print "can't open file: $processFile";
    while (<FH>)
     {
        chomp;
        my @filed =split /,/ ;
        print OUTFILE "$_\n" if (defined$hashFile{$filed[1]});
     }
     
close (FH);
close(OUTFILE);
}      

测试样例:
A文件:372M
B文件:20个关键字
耗时:75秒

因为正式环境的文件预计有2G左右大小,因此才更优算法,谢谢各位大虾帮忙。

论坛徽章:
0
2 [报告]
发表于 2011-05-19 11:40 |只看该作者
while (<FH>)
     {
        chomp;
        my @filed =split /,/ ;
        print OUTFILE "$_\n" if (defined$hashFile{$filed[1]});
     }

改为

while (<FH>)
     {
        my @filed =split(',',$_);
        print OUTFILE "$_" if ($hashFile{$filed[1]});
     }

以减少一点点操作,能提一点点速,肯定不明显。

论坛徽章:
0
3 [报告]
发表于 2011-05-19 11:48 |只看该作者
回复2楼,呵呵,尝试了一下,节省了7秒钟。

论坛徽章:
1
狮子座
日期:2013-12-16 16:09:24
4 [报告]
发表于 2011-05-19 12:18 |只看该作者
my $reg=join '|',keys %hashFile;
while (<FH>) {
        print OUTFILE "$_" if /^.*,($reg),/;
}

论坛徽章:
0
5 [报告]
发表于 2011-05-19 14:15 |只看该作者
回复4楼,采用你的写法后,只需要24秒,厉害啊,呵呵。
能否稍微解释一下含义,谢谢!

论坛徽章:
0
6 [报告]
发表于 2011-05-19 14:28 |只看该作者
split是有点慢,在大量处理文本数据的时候,尽量用别的方式。正则也是较慢的。如果第一列是固定列宽,LZ可以使用substr,那样会快不少。

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
7 [报告]
发表于 2011-05-19 14:30 |只看该作者
人气不高是因为问题简单啊,各方面昨天基本都说到了……总不至于1+1也引起热烈讨论吧

论坛徽章:
0
8 [报告]
发表于 2011-05-19 14:36 |只看该作者

  1. while (<FH>)
  2.      {
  3.         $_ =~ m/^\d+,(\w)/;
  4.         print OUTFILE "$_" if defined($hashFile{$1});
  5.      }
复制代码

论坛徽章:
0
9 [报告]
发表于 2011-05-19 15:13 |只看该作者
谢谢 iamlimeng 的提示,第一列恰好是定长,因此我修改了 ttcn_cu 的语句为:
while (<FH>) {
        print OUTFILE "$_" if /^.{11},($reg),/;
      }
结果又快了7秒钟。

论坛徽章:
0
10 [报告]
发表于 2011-05-27 15:52 |只看该作者
1. 给正则加上 (?:
2. 另外提前编译正则

可以再试试
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP