12 / 2 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2012-11-10 10:37 |只看该作者 |倒序浏览

若是只希望两个文件之间输出匹配（第一列）记录，可以直接利用

$ awk 'NR==FNR{key[$1]++;a[$1 FS key[$1]]=$0;next} $1 in key {for (i=1;i<=key[$1];i++) print a[$1 FS i], $0}' OFS="\t" fileA fileB

复制代码

但是若只需要部分匹配，且需要对其中一个文件先进行单位划分，该如何操作呢？
文件一（需要匹配第一列）：

NO_222333 222 abc
NO_54321 123 aa
NO_123456 234 bac
NO_5432123 321 bbb

复制代码

文件二（需要首先根据“@”对文件进行划分，再匹配每个单位第一行中内容）：

@ab|abc|NO_12345.1|abcd aa bb cc
abcdefghigkabcdefghigkabcdefghigk
abcdefghigkabcdefghigkabcdefghigk
abcdefghigkabcdefghigkabcdefghigk
@ab|cba|NO_54321.1|abcd aa bb aa
cbadefghigkcbadefghigkcbadefg
cbadefghigkcbadefghigkcbadefg
@ab|cba|NO_5432123.2|abcd aa aa
abcdefghigkabcdefghigkabcdefghigk
abcdefghigkabcdefghigkabcdefghigk
cbadefghigkcbadefghigkcbadefg
cbadefghigkcbadefghigkcbadefg

复制代码

输出结果：

@ab|cba|NO_54321.1|abcd aa bb aa
cbadefghigkcbadefghigkcbadefg
cbadefghigkcbadefghigkcbadefg
@ab|cba|NO_5432123.2|abcd aa aa
abcdefghigkabcdefghigkabcdefghigk
abcdefghigkabcdefghigkabcdefghigk
cbadefghigkcbadefghigkcbadefg
cbadefghigkcbadefghigkcbadefg

复制代码

文库|博客

dahaoshanhe

小富即安

论坛徽章:: 0

2楼 [报告]

发表于 2012-11-10 10:54 |只看该作者

自己先想想

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

3楼 [报告]

发表于 2012-11-10 12:01 |只看该作者

shell

#!/bin/bash
file1=1.txt
file2=2.txt
list=$(awk '{print $1}' $file1)
for i in $list
do
awk 'BEGIN{FS=OFS="[|.]";RS="@";ORS=""}$3=="'$i'"{print "@"$0}' $file2
done

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

4楼 [报告]

发表于 2012-11-10 13:28 |只看该作者

回复 1# 怿_mao44

awk 'NR==FNR{a[$1];next}/@/{if(gensub(/.*(NO[^|]+)\..*/,"\\1",1) in a)(t=1);else{t=0}}t' file1 file2

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

怿_mao44

稍有积蓄

论坛徽章:: 0

5楼 [报告]

发表于 2012-11-10 14:33 |只看该作者

回复 4# yinyuemi

我的理解，这个命令是对“@”进行一个单位划分后，再提取出第一行中能匹配“NO**”并以“.”结尾的的中间部分。
再与另一个文件的需要匹配部分进行匹配是么？

但是这个就有限制，必须要是“NO”开头的单一规律部分，若是需要匹配的记录是多种格式就比较麻烦点。
譬如，除了NO_1234，NO_2356这样的部分，还可能是有AA_12345，BB12345，ABC111多种情况

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

怿_mao44

稍有积蓄

论坛徽章:: 0

6楼 [报告]

发表于 2012-11-10 14:52 |只看该作者

回复 3# yestreenstars

正在测试，似乎处理速度比较慢。。

#!/bin/bash
file1=1.txt
file2=2.txt
list=$(awk '{print $1}' $file1) ##提取输入文件一中的第一列记录
for i in $list ##对提取的第一列记录进行for循环
do
awk 'BEGIN{FS=OFS="[|.]";RS="@";ORS=""}$3=="'$i'"{print "@"$0}' $file2
##RS指定文件分隔符，以“@”为一个单位（类似于一行），再利用FS，OFS指定列分隔符“|”或者“.”。这样文件二中的第三列即为NO_12345、NO_54321部分，再与之前提取的文件一的第一列进行匹配
done

复制代码

我的理解思路，不知是否正确

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

7楼 [报告]

发表于 2012-11-10 15:55 |只看该作者

回复 6# 怿_mao44

没错，就是这个意思，你文件有多大？多少行？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

8楼 [报告]

发表于 2012-11-10 16:16 |只看该作者

回复 5# 怿_mao44

变通变通
awk 'NR==FNR{a[$1];next}/@/{if(gensub(/.*\|([^|]+)\..*/,"\\1",1) in a)(t=1);else{t=0}}t' file1 file2
或：
awk 'NR==FNR{a[$1];next}/@/{split($0,b,"[|.]");if(b[3] in a)(t=1);else{t=0}}t' file1 file2