论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-03-03 12:14 |只看该作者 |倒序浏览

网上翻，论坛找，都未找到多文本提取相同行的例子，好像全世界都很讨厌重复行，要删除它都是些去重复的例子，郁闷！正在啃perl 5，希望各位大侠指点下，写个提取两个文本中相同的行，存入另一个新文本的代码的示例，帮助新手学习，能注释一下就更完美了，谢谢大家啦！

我需要的示例要求如下：

提取1.txt与2.txt中相同行保存为3.txt

文本文件；1.txt(需要查重的文件)
01 02 03 04 05 06
02 03 04 05 06 07
15 19 22 24 27 28 33 36
01 09 14 15 19 23

文本文件；2.txt(内容比较多的文件)
01 02 03 04 05 06
02 03 04 05 06 07
05 06 07 08 09 10 11
03 04 05 06 07 08
05 07 09 11 13 14 15
08 10 14 15 17 22 23 25
11 12 16 18 19 41
22 24 29 34 37 39

文本文件；3.txt (需要的结果)
01 02 03 04 05 06
02 03 04 05 06 07

文库|博客

jun413947139

白手起家

论坛徽章:: 1

2楼 [报告]

发表于 2013-03-03 13:45 |只看该作者

看看这样吧，核心只有一句 grep { grep {} .... } ... 的判断

#! /usr/bin/perl
use strict;
use warnings;
my $src_lines_1_ref = get_lines_from_file('1.txt');
my $src_lines_2_ref = get_lines_from_file('2.txt');
my @dst_lines = grep {
my $line = $_;
grep $_ eq $line, @$src_lines_1_ref;
} @$src_lines_2_ref;
write_lines_to_file('3.txt', \@dst_lines);
sub get_lines_from_file {
my $file = shift || "";
my @lines;
open my $FILE, "<$file" or die "Cannot open $file: $!";
while (<$FILE>) {
chomp;
next if /^\s*$/ #删除空行
s/^\s*//; # 注释掉行头的空格
s/\s*$//; # 注释掉行尾的空格
push @lines, $_;
}
close $FILE;
return \@lines;
}
sub write_lines_to_file {
my $file = shift || "";
my $lines_ref = shift || "";
open my $FILE, ">$file" or die "Cannot open $file: $!";
for (@$lines_ref) {
print $FILE $_."\n";
}
close $FILE;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dqw233

白手起家

论坛徽章:: 1

3楼 [报告]

发表于 2013-03-03 13:59 |只看该作者

#!/usr/bin perl
use v5.14;
use warnings;
use autodie;
open(my $a_fd, '<', 'a.txt');
open(my $b_fd, '<', 'b.txt');
#output file
open(my $c_fd, '>', 'c.txt');
my %lines_in_a;
while (<$a_fd>) {
chomp;
#将a文件中的所有行加入map中
$lines_in_a{$_} = 1;
}
while (<$b_fd>) {
chomp;
#如果发现b.txt中有行与a.txt中相同则认为重复，并输入到c.txt中
if (exists($lines_in_a{$_})) {
say {$c_fd} $_;
}
}
close $a_fd;
close $b_fd;
close $c_fd;

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kk861123

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2013-03-03 20:51 |只看该作者

我一般的方法都是使用两个hash来解决此类问题，供大家参考一下：
定义两个hash:%m 和 %n，核心代码就是$m{$_}++ and $n{$_}++

#!/usr/bin/perl
use strict;
use warnings;
use Data::Dumper;
my @array1 = split /\n/, <<FILE1;
01 02 03 04 05 06
02 03 04 05 06 07
15 19 22 24 27 28 33 36
01 09 14 15 19 23
FILE1
my @array2 = split /\n/, <<FILE2;
01 02 03 04 05 06
02 03 04 05 06 07
05 06 07 08 09 10 11
03 04 05 06 07 08
05 07 09 11 13 14 15
08 10 14 15 17 22 23 25
11 12 16 18 19 41
22 24 29 34 37 39
FILE2
my (%m, %n);
foreach ( @array1, @array2 ) {
$m{$_}++ and $n{$_}++;
}
print Dumper \%m;
print Dumper \%n;

复制代码

结果如下：

$VAR1 = {
'03 04 05 06 07 08' => 1,
'05 07 09 11 13 14 15' => 1,
'15 19 22 24 27 28 33 36' => 1,
'05 06 07 08 09 10 11' => 1,
'11 12 16 18 19 41' => 1,
'22 24 29 34 37 39' => 1,
'01 02 03 04 05 06 ' => 2,
'02 03 04 05 06 07' => 2,
'08 10 14 15 17 22 23 25' => 1,
'01 09 14 15 19 23' => 1
};
$VAR1 = {
'01 02 03 04 05 06 ' => 1,
'02 03 04 05 06 07' => 1
};

复制代码

分析两个hash的结果值可以逐个推出实际需要的重复还是非重复数据：
1> 求两个数组中的重复项，可以直接是用%n取键值获得，或通过对%m的键值grep

# intersection
print "\nMethod1:\n";
print "$_\n" for keys %n;
print "\nMethod2:\n";
print "$_\n" for grep { $m{$_} >= 2 } keys %m;

复制代码

结果如下：
Intersection1:
01 02 03 04 05 06
02 03 04 05 06 07

Intersection2:
01 02 03 04 05 06
02 03 04 05 06 07

2> 对两个数组去重，取%m的键值即可

# union
print "\nUnion:\n";
print "$_\n" for keys %m;

复制代码

结果如下：
Union:
03 04 05 06 07 08
05 07 09 11 13 14 15
15 19 22 24 27 28 33 36
05 06 07 08 09 10 11
11 12 16 18 19 41
22 24 29 34 37 39
01 02 03 04 05 06
02 03 04 05 06 07
08 10 14 15 17 22 23 25
01 09 14 15 19 23
3> 求两个数组之间不同的项，是用grep对%m的键值操作

# non-uniq
print "\nNon-uniq:\n";
print "$_\n" for grep { $m{$_} == 1 } keys %m;

复制代码

结果：
Non-uniq:
03 04 05 06 07 08
05 07 09 11 13 14 15
15 19 22 24 27 28 33 36
05 06 07 08 09 10 11
11 12 16 18 19 41
22 24 29 34 37 39
08 10 14 15 17 22 23 25
01 09 14 15 19 23

使用hash去重是效率很高的方法，但是缺点是无法保持数组中数据原来的顺序。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

longbow0

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2013-03-03 22:49 |只看该作者

本帖最后由 longbow0 于 2013-03-03 22:50 编辑

comm -12 1.txt 2.txt > 3.txt

不过只能用于sorted文件

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackfur

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2013-03-04 00:21 |只看该作者

#!/usr/bin/perl
use strict;
use warnings;

my ($line,$l2);
my $i=1;
my $j=1;
open FILE,"<t.txt" or die "Can't open t: $!\n";
open F2,"<2.txt" or die "Can't open 2: $!\n";
open f3,">3.txt" or die "can not write 3: $!\n";
while ($line=<FILE>) {
print "t.txt: ",$j++,"\n";
chomp $line;
while (defined($l2=<F2>)) {
chomp $l2;
if ( $line eq $l2 ) { print f3 $line,"\n"}
print "2.txt: ",$i++,"\n";
}
seek F2,0,0;
$i=1;
}
close FILE;
close F2;
close f3;

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhaodelu1

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2013-03-04 17:17 |只看该作者

diff 1.txt 2.txt | awk '/^</{print}' |sed 's/< //' > 3.txt
diff 1.txt 3.txt | awk '/^</{print}' | sed 's/< //'

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sinian126 该用户已被删除	8楼 [报告] 发表于 2013-03-04 19:14 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
sinian126 该用户已被删除	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？