免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1484 | 回复: 2

求助文本处理 [复制链接]

论坛徽章:
0
发表于 2017-03-22 11:33 |显示全部楼层
大家好!有A文件是一列ID,没有重复值
11
22
33
B文件第一列包含这些ID,其它列用tab分割,
11.   aaa
11.   aaaa
12.   bbb
22.   ccc

输出:
11.   aaa
11.   aaaa
22.   ccc


现在想法是把两个文件都读作数组,然后循环B的数组,判断A数组的值是否出现在B里,请教大家还有别的思路吗?

论坛徽章:
0
发表于 2017-03-22 12:52 |显示全部楼层
本帖最后由 Okelani 于 2017-03-22 12:54 编辑

把文件A读作哈希
判断B的第一列ID是否出现在哈希A里

  1. #!/usr/bin/perl
  2. my ( $fileA, $fileB ) = qw/A B/;
  3. open my $A, $fileA or die "$fileA: ", $!;
  4. open my $B, $fileB or die "$fileB: ", $!;

  5. my %A_has = map { $_, chomp } <$A>;

  6. while (<$B>) {
  7.     my ($id) = split /\./;
  8.     print if $A_has{$id};
  9. }
复制代码

把两个文件都读作数组。

也能解决问题, 效率有差别。

  1. #!/usr/bin/perl

  2. my ( $fileA, $fileB ) = qw/A B/;
  3. open my $A, $fileA or die "$fileA: ", $!;
  4. open my $B, $fileB or die "$fileB: ", $!;

  5. my @A = grep { chomp } <$A>;
  6. my @B = <$B>;

  7. for my $B (@B) {
  8.     my ($id) = split /\./, $B;
  9.     for my $ID (@A) {
  10.         if ( $id eq $ID ) {
  11.             print $B;
  12.             last;
  13.         }
  14.     }
  15. }
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2017-03-22 14:44 |显示全部楼层
二楼大神的思路:
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my %hData = ();
  5. while (<DATA>){
  6.         last if (/\A\s*\z/);
  7.         $hData{$1}++ if (/(\d+)/);
  8. }

  9. while (<DATA>){
  10.         print if (/(\d+)/ and $hData{$1});
  11. }

  12. __DATA__
  13. 11
  14. 22
  15. 33

  16. 11.   aaa
  17. 11.   aaaa
  18. 12.   bbb
  19. 22.   ccc
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP