Chinaunix
标题:
多个文件关联输出的问题
[打印本页]
作者:
fangww_uestc
时间:
2013-06-26 15:23
标题:
多个文件关联输出的问题
比如三个文件file1,file2,fiel3
file1的内容为:
473-2473-1
473-2473-2
600-600-0
.....
file2的内容为:
name|fuc|473-2473-1|TYP|473-2473-2|473-2473-0|2011-2011-0|600-600-0|423-423-0|423-423-2|600-600-1
name|fuc|600-600-0|TYP|473-2473-2|473-2473-0|2011-2011-0|473-2473-1|423-423-0|423-423-2|600-600-1
...
file3的内容为
473-2473-1|柯南
473-2473-2|路飞
600-600-0|机器猫
....
file1的第一个字段,file2的第三个字段和file3的第一个字段为关联字段
希望的输出效果为:将file1中第一栏出现的字段两两配对,找出配对的
473-2473-1 柯南 473-2473-2 路飞 5
473-2473-1 柯南 600-600-0 机器猫 8
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5
.....
#第一栏为file1的第一字段,
#第二栏为file1字段在file3中的第二个字段,
#第三栏为file1出现的要配对字段,
#第四栏为配对字段在file3的第二个字段,
#第五栏为配对字段在file2中出现的栏位编号
----------------
目前file1和file2的关联我这样写的:
awk -F\| 'NR==FNR{a[$1]=$1}NR>FNR{if(a[$3]==$3){for(i=4;i<NF;i++){for(j in a){if(a[j]==$i)print $3,$i,i}}}}' file1 file2 |awk '{if(!a[$0]++)print}'
得出这个结果,是符合预期的,因为有重复多了个去重:
473-2473-1 473-2473-2 5
473-2473-1 600-600-0 8
600-600-0 473-2473-2 5
600-600-0 473-2473-1 8
但总觉得很复杂,假如三个文件关联呢,请教各位达人有没有好的方法,谢谢。
作者:
fangww_uestc
时间:
2013-06-26 15:32
不知说清楚问题没有
多多包涵
作者:
seesea2517
时间:
2013-06-26 15:35
你的方法不是挺好的嘛,没看上去多复杂
作者:
fangww_uestc
时间:
2013-06-26 15:53
回复
3#
seesea2517
这里for(j in a){if(a[j]==$i)本来一开始用if($i in a)来代替的,但搞不明白为什么不对,不得已循环比较
多个文件的情况呢
新手来的,请多多指教
作者:
yinyuemi
时间:
2013-06-26 16:10
回复
4#
fangww_uestc
try:
awk 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;next}$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码
作者:
fangww_uestc
时间:
2013-06-26 16:34
回复
5#
yinyuemi
谢谢yinyuemi
但执行结果没有任何输出呢
另外再请教一下:
1,ARGIND==2那里为什么需要next呢?不是很理解这个,刚才百度了一下next用法,还不是很明白在这里的用法
2,不用ARGIND==3吗?是默认直接进行对下一个文件进行处理吗?
作者:
yestreenstars
时间:
2013-06-26 16:52
本帖最后由 yestreenstars 于 2013-06-26 16:57 编辑
貌似只要两个文件就可以了,顺序跟你的有点不一样,如果要求顺序,我再改改~
[root@localhost ~]# cat a
473-2473-1|柯南
473-2473-2|路飞
600-600-0|机器猫
[root@localhost ~]# cat b
name|fuc|473-2473-1|TYP|473-2473-2|473-2473-0|2011-2011-0|600-600-0|423-423-0|423-423-2|600-600-1
name|fuc|600-600-0|TYP|473-2473-2|473-2473-0|2011-2011-0|473-2473-1|423-423-0|423-423-2|600-600-1
[root@localhost ~]# awk -F\| 'NR==FNR{a[$1]=$2;next}{for(i=5;i<=NF;i++)if($i in a)print $3,a[$3],$i,a[$i],i}' a b
473-2473-1 柯南 473-2473-2 路飞 5
473-2473-1 柯南 600-600-0 机器猫 8
600-600-0 机器猫 473-2473-2 路飞 5
600-600-0 机器猫 473-2473-1 柯南 8
[root@localhost ~]#
复制代码
注:你给的结果有问题吧?第三、四行的600-600-0怎么对应的是路飞?
作者:
WilliBhamlll
时间:
2013-06-26 16:53
回复
6#
fangww_uestc
yinyuemi的代码掉了一个分隔符。
awk -F\| 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;next}$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码
不用next,用ARGIND==3就可以照下面这样写,但用next简洁多了嘛。
awk -F\| 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;}ARGIND==3&&$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码
作者:
fangww_uestc
时间:
2013-06-26 17:06
回复
8#
WilliBhamlll
不好意思,没注意到少了分隔符,还纳闷逻辑上没有问题,怎么没输出呢
谢谢yinyuemi,WilliBhamlll,还有yestreenstars,谢谢你们,受教了。
作者:
seesea2517
时间:
2013-06-26 22:20
回复
4#
fangww_uestc
你的注册时间比我还早呢,我更新:)哈哈。
那个 in 是针对下标的,你这个是要对比数组的值,所以不能用了:
这是个例子,可以看证明 in 是对下标的操作:
$ awk 'BEGIN{a[1]="a"; a[2]="b"; for (i in a) print i ": " a[i]; if(1 in a) pri
nt "1 in a"; if("a" in a) print "a in a"}'
1: a
2: b
1 in a
复制代码
作者:
fangww_uestc
时间:
2013-06-27 09:07
回复
10#
seesea2517
我是逛到好地方然后就注册了的的注册党...
@yinyuemi也是这样用的,我理解就是不管下标还是值,反正最后还是按照值来进行对比,不管是下标值还是数组值,这样以值的角度来看没错
可能产生错误的地方在这里NR>FNR{if(a[$3]==$3),这里我采用是值比较,而yinyuemi采用的是这个$3 in a,所以我后面是for(j in a){if(a[j]==$i),前后要一致?不大清楚,反正觉得高手的代码是非常简洁和好看,自己写的就繁琐冗长一些
作者:
seesea2517
时间:
2013-06-27 10:48
回复
11#
fangww_uestc
嗯,前后一致的使用就能达到效果。
作者:
fangww_uestc
时间:
2013-07-05 17:39
如果file1多一个700-700-1,但它与其他的没有关系,也希望反馈没有关系输出,怎么处理呢?请教@yinyuemi,@WilliBhamlll,@yestreenstars,@seesea2517
file1:
473-2473-1
473-2473-2
600-600-0
700-700-1
结果
473-2473-1 柯南 473-2473-2 路飞 5
473-2473-1 柯南 600-600-0 机器猫 8
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5
...
700-700-1 鸣人 600-600-0 机器猫 无关系
700-700-1 鸣人 473-2473-1 柯南 无关系
作者:
fangww_uestc
时间:
2013-07-05 17:41
黄色看得眼花,改一下颜色
)
如果file1多一个700-700-1,但它与其他的没有关系,也希望反馈没有关系输出,怎么处理呢?请教@yinyuemi,@WilliBhamlll,@yestreenstars,@seesea2517
file1:
473-2473-1
473-2473-2
600-600-0
700-700-1
结果
473-2473-1 柯南 473-2473-2 路飞 5
473-2473-1 柯南 600-600-0 机器猫 8
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5
...
700-700-1 鸣人 600-600-0 机器猫 无关系
700-700-1 鸣人 473-2473-1 柯南 无关系
作者:
kooleon
时间:
2013-07-05 19:13
看懂一些
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2