免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Shell › 求一个文件内容比较脚本(按指定列进行比较)

12 / 2 页下一页

最近访问板块

发新帖

查看: 6688 | 回复: 12

上一主题

下一主题

[文本处理] 求一个文件内容比较脚本(按指定列进行比较) [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2012-11-27 15:56 |只看该作者 |倒序浏览

5可用积分

求一个文件内容比较脚本(按指定列进行比较)
awk、sed、perl、bash shell 都可以

本来想用hashmap来做，但是查了下好像shell没有相关信息

以下面fileA 、fileB 两个文件为例：
只比较列1、列2; 列3忽略不做比较
文件记录数不一样;
列分割符为"|";

A. 当fileA与fileB当前行的列2不相同时:
1. 把fileA中的当前行记录写入diffA
2. 把fileB中的当前行记录吸入diffB(如果当前行为空白则不写入)
B. 当fileA与fileB当前行的列2相同, 但列1不相同时:
1. 把fileA中的当前行记录写入diffA
2. 把fileB中的当前行记录吸入diffB

fileA (15行)内容：(# 后的内容为注释, 实际文件中不存在)

A|02942|20121126111458 # 相同记录(忽略第3列)
A|03055|20121126110255 # 相同记录(忽略第3列)
A|08931|20121126133649 # 写入diffB(fileB没有该记录)
A|08932|20121126133743 # 写入diffA(与fileB的列1不相同)
A|27822|20121126212704 # 相同记录(忽略第3列)
A|31520|20121126153305 # 写入diffB(fileB没有该记录)
A|31612|20121126103716 # 写入diffB(fileB没有该记录)
D|40439|20121126193846 # 写入diffA(与fileB的列1不相同)
D|43223|20121126113926 # 写入diffB(fileB没有该记录)
A|45789|20121126142204 # 写入diffB(fileB没有该记录)
A|46651|20121126143730 # 写入diffB(fileB没有该记录)
A|49212|20121126152429 # 写入diffB(fileB没有该记录)
A|52009|20121126173141 # 写入diffB(fileB没有该记录)
A|60524|20121126171733 # 写入diffA(与fileB的列1不相同)
A|61257|20121126113339 # 写入diffA(与fileB的列1不相同)

复制代码

fileB (12行)内容：(# 后的内容为注释, 实际文件中不存在)

A|02942|20071128200822 # 相同记录(忽略第3列)
A|03055|20071128200827 # 相同记录(忽略第3列)
D|08932|20071128201524 # 写入diffB(与fileA的列1不相同)
D|13992|20091212125210 # 写入diffB(fileA没有该记录)
D|21780|20071128202710 # 写入diffB(fileA没有该记录)
A|27822|20071128203440 # 相同记录(忽略第3列)
D|29558|20071128203708 # 写入diffB(fileA没有该记录)
A|34079|20071128204308 # 写入diffB(fileA没有该记录)
D|34619|20071128204330 # 写入diffB(fileA没有该记录)
A|40439|20071128204933 # 写入diffB(与fileA的列1不相同)
D|60524|20121126171733 # 写入diffB(与fileA的列1不相同)
D|61257|20121126113339 # 写入diffB(与fileA的列1不相同)

复制代码

目标文件: diffA (# 后的内容为注释, 实际文件中不存在)

A|08931|20121126133649 # fileB没有该记录
A|08932|20121126133743 # 与fileB的列1不相同
A|31520|20121126153305 # fileB没有该记录
A|31612|20121126103716 # fileB没有该记录
D|40439|20121126193846 # 与fileB的列1不相同
D|43223|20121126113926 # fileB没有该记录
A|45789|20121126142204 # fileB没有该记录
A|46651|20121126143730 # fileB没有该记录
A|49212|20121126152429 # fileB没有该记录
A|52009|20121126173141 # fileB没有该记录
A|60524|20121126171733 # 与fileB的列1不相同
A|61257|20121126113339 # 与fileB的列1不相同

复制代码

目标文件: diffB (# 后的内容为注释, 实际文件中不存在)

D|08932|20071128201524 # 与fileA的列1不相同
D|13992|20091212125210 # fileA没有该记录
D|21780|20071128202710 # fileA没有该记录
D|29558|20071128203708 # fileA没有该记录
A|34079|20071128204308 # fileA没有该记录
D|34619|20071128204330 # fileA没有该记录
A|40439|20071128204933 # 与fileA的列1不相同
D|60524|20121126171733 # 与fileA的列1不相同
D|61257|20121126113339 # 与fileA的列1不相同

复制代码

最佳答案

查看完整内容

#!/usr/bin/perlopen FILEA, "< $ARGV[0]";open FILEB, "< $ARGV[1]";while(){ chomp; push @fileA, $_;}while(){ chomp; push @fileB, $_;}(@fileA > @fileB) ? ($max=@fileA) : ($max=@fileB);for(0..$max-1){ $lineA=$fileA[$_]; $lineB=$fileB[$_]; $lineA=~s/^(\w+)\|(\w+)\|.*/$1$2/; $lineB=~s/^(\w+)\|(\w+)\|.*/$1$2/; if($lineA ne $lineB){ push @diffA, $fileA[$_]; push @diffB, $fileB[$_]; }}print "diffA:\n";fo ...

文库|博客

论坛徽章:: 0

2楼 [报告]

发表于 2012-11-27 15:56 |只看该作者

#!/usr/bin/perl

open FILEA, "< $ARGV[0]";
open FILEB, "< $ARGV[1]";

while(<FILEA>){
chomp;
push @fileA, $_;
}

while(<FILEB>){
chomp;
push @fileB, $_;
}

(@fileA > @fileB) ? ($max=@fileA) : ($max=@fileB);

for(0..$max-1){
$lineA=$fileA[$_];
$lineB=$fileB[$_];
$lineA=~s/^(\w+)\|(\w+)\|.*/$1$2/;
$lineB=~s/^(\w+)\|(\w+)\|.*/$1$2/;
if($lineA ne $lineB){
push @diffA, $fileA[$_];
push @diffB, $fileB[$_];
}
}

print "diffA:\n";
for(@diffA){
print "$_\n";
}
print "diffB:\n";
for(@diffB){
print "$_\n";
}

$ ./diff.pl fileA.txt fileB.txt
diffA:
A|08931|20121126133649
A|08932|20121126133743
A|27822|20121126212704
A|31520|20121126153305
A|31612|20121126103716
D|40439|20121126193846
D|43223|20121126113926
A|45789|20121126142204
A|46651|20121126143730
A|49212|20121126152429
A|52009|20121126173141
A|60524|20121126171733
A|61257|20121126113339
diffB:
D|08932|20071128201524
D|13992|20091212125210
D|21780|20071128202710
A|27822|20071128203440
D|29558|20071128203708
A|34079|20071128204308
D|34619|20071128204330
A|40439|20071128204933
D|60524|20121126171733
D|61257|20121126113339

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

3楼 [报告]

发表于 2012-11-27 15:59 |只看该作者

helpid 发表于 2012-11-27 15:56
求一个文件内容比较脚本(按指定列进行比较)
awk、sed、perl、bash shell 都可以

源文件.zip (469 Bytes, 下载次数: 14)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 32

处女座
日期:2013-11-20 23:41:20

双子座
日期:2014-06-11 17:20:43

戌狗
日期:2014-06-16 11:05:00

处女座
日期:2014-07-22 17:30:47

狮子座
日期:2014-07-28 15:38:17

金牛座
日期:2014-08-05 16:34:01

亥猪
日期:2014-08-18 13:34:25

白羊座
日期:2014-09-02 15:03:55

金牛座
日期:2014-11-10 10:23:58

处女座
日期:2014-12-02 09:17:52

程序设计版块每日发帖之星
日期:2015-06-16 22:20:00

2015亚冠之塔什干火车头
日期:2015-06-20 23:28:22

4楼 [报告]

发表于 2012-11-27 16:10 |只看该作者

第3行，列2不同，应该属于A这种情况吧？但是你两个都写入diffB是什么意思？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

5楼 [报告]

发表于 2012-11-27 16:14 |只看该作者

以下是我的一个思路，还没法完全用awk写出来。很多地方需要帮助指正。

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

6楼 [报告]

发表于 2012-11-27 16:41 |只看该作者

awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&!($1$2 in a){print $0}' fileA fileB > diffA
awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&!($1$2 in a){print $0}' fileB fileA > diffB

复制代码

搞定了。awk 太强悍了。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

7楼 [报告]

发表于 2012-11-27 16:42 |只看该作者

awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&!($1$2 in a){print $0}' fileA fileB > diffA
awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&!($1$2 in a){print $0}' fileB fileA > diffB

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

8楼 [报告]

发表于 2012-11-27 17:25 |只看该作者

# 只在file1中有的行
awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&!($1$2 in a){print $0}' file2 file1
# 只在file2中有的行
awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&!($1$2 in a){print $0}' file1 file2
# 同时在file1和file2中的行
awk -F'|' 'ARGIND==1{a[$1$2]}ARGIND>1&&($1$2 in a){print $0}' file1 file2

复制代码

以上方法参照了jomenxiao的文章:
http://blog.chinaunix.net/uid-25149914-id-3091426.html

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

9楼 [报告]

发表于 2012-11-27 21:10 |只看该作者

回复 6# helpid

DS,可以解释一下ARGIND==1 和ARGIND>1 究竟是什么意思??

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

10楼 [报告]

发表于 2012-11-27 21:59 |只看该作者

A|27822|20121126212704 # 相同记录(忽略第3列)

This line is not the same between A and B, A is in line #5, B is in line #6

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Shell › 求一个文件内容比较脚本(按指定列进行比较)

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP