免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1355 | 回复: 1

在"大海里捞针"的perl脚本。 [复制链接]

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
发表于 2006-02-10 21:16 |显示全部楼层
论坛里有网友问在一个有非常多很大文件的目录中搜索的问题,显然这时我们最关心的是性能的。你可能会说最好用C来做,不过在好的算法下shell的性能也许能够满足要求。这里我们假定我们要查找的东西只会出现一次。那么:
1.我们的程序应该在找到匹配后放弃搜索其它文件;
2.由于文件的行数也很大,所以程序在找到匹配后退出当前文件的搜索。
如果直接用shell来做,可能会碰到命令行长度或参数数目的限制问题,如果用xargs重新装配命令行,也有些很难处理的麻烦。所以索性用perl写了一个,请大家指正:
  1. #!/usr/bin/perl
  2. die "usage: $0 path pattern\n" unless @ARGV == 2;
  3. ($path, $pattern)=@ARGV;
  4. $, = " ";
  5. print $path;
  6. opendir(DH, $path) or die "cannot open dir!";
  7. while($file = readdir(DH)) {
  8.     next if (!open(FH, "./".$file));
  9.     while(<FH>) {
  10.         print $file, $1 if (m/($pattern)/);
  11.         if ($1) {
  12.             printf STDERR "found in %s line %d!\nexiting...\n", $file, $.;
  13.             exit 0;        # change this to "next;" (no ") if you want to find in other files
  14.         }
  15.     }
  16.     close(FH);
  17. }
  18. closedir(DH);
  19. print STDERR "not found.";
  20. exit 1
复制代码


讨论:
1.如果要查找的东西不止会出现一次,但在每个文件中不会出现多次,那我们就得在其它文件中继续搜索。可以将上面脚本中带注释的一行改为:
  1. next;
复制代码

2.如果在每个文件中也可能重复出现,那就没办法取巧了,只好将带注释的一行删掉。你最好去用C写个程序,或者找到其它特征在算法上提高查找的速度。

[ 本帖最后由 woodie 于 2006-2-10 21:20 编辑 ]

论坛徽章:
0
发表于 2006-02-10 21:35 |显示全部楼层
原帖由 woodie 于 2006-2-10 21:16 发表
论坛里有网友问在一个有非常多很大文件的目录中搜索的问题,显然这时我们最关心的是性能的。你可能会说最好用C来做,不过在好的算法下shell的性能也许能够满足要求。这里我们假定我们要查找的东西只会出现一次。那 ...

哇...精品,精品
收藏
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP