Chinaunix

标题: 多个文件关联输出的问题 [打印本页]

作者: fangww_uestc    时间: 2013-06-26 15:23
标题: 多个文件关联输出的问题
比如三个文件file1,file2,fiel3
file1的内容为:
473-2473-1
473-2473-2
600-600-0
.....

file2的内容为:
name|fuc|473-2473-1|TYP|473-2473-2|473-2473-0|2011-2011-0|600-600-0|423-423-0|423-423-2|600-600-1
name|fuc|600-600-0|TYP|473-2473-2|473-2473-0|2011-2011-0|473-2473-1|423-423-0|423-423-2|600-600-1
...

file3的内容为
473-2473-1|柯南
473-2473-2|路飞
600-600-0|机器猫
....


file1的第一个字段,file2的第三个字段和file3的第一个字段为关联字段

希望的输出效果为:将file1中第一栏出现的字段两两配对,找出配对的
473-2473-1 柯南 473-2473-2 路飞 5            
473-2473-1 柯南 600-600-0 机器猫 8            
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5                                                  
.....

#第一栏为file1的第一字段,                                                            
#第二栏为file1字段在file3中的第二个字段,                                                              
#第三栏为file1出现的要配对字段,
#第四栏为配对字段在file3的第二个字段,
#第五栏为配对字段在file2中出现的栏位编号


----------------
目前file1和file2的关联我这样写的:
awk -F\| 'NR==FNR{a[$1]=$1}NR>FNR{if(a[$3]==$3){for(i=4;i<NF;i++){for(j in a){if(a[j]==$i)print $3,$i,i}}}}' file1 file2 |awk '{if(!a[$0]++)print}'
得出这个结果,是符合预期的,因为有重复多了个去重:
473-2473-1 473-2473-2 5
473-2473-1 600-600-0 8
600-600-0 473-2473-2 5
600-600-0 473-2473-1 8


但总觉得很复杂,假如三个文件关联呢,请教各位达人有没有好的方法,谢谢。


作者: fangww_uestc    时间: 2013-06-26 15:32
不知说清楚问题没有多多包涵
作者: seesea2517    时间: 2013-06-26 15:35
你的方法不是挺好的嘛,没看上去多复杂
作者: fangww_uestc    时间: 2013-06-26 15:53
回复 3# seesea2517

这里for(j in a){if(a[j]==$i)本来一开始用if($i in a)来代替的,但搞不明白为什么不对,不得已循环比较
多个文件的情况呢
新手来的,请多多指教


   
作者: yinyuemi    时间: 2013-06-26 16:10
回复 4# fangww_uestc


    try:
  1. awk 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;next}$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码

作者: fangww_uestc    时间: 2013-06-26 16:34
回复 5# yinyuemi

谢谢yinyuemi

但执行结果没有任何输出呢

另外再请教一下:
1,ARGIND==2那里为什么需要next呢?不是很理解这个,刚才百度了一下next用法,还不是很明白在这里的用法
2,不用ARGIND==3吗?是默认直接进行对下一个文件进行处理吗?


   
作者: yestreenstars    时间: 2013-06-26 16:52
本帖最后由 yestreenstars 于 2013-06-26 16:57 编辑

貌似只要两个文件就可以了,顺序跟你的有点不一样,如果要求顺序,我再改改~
  1. [root@localhost ~]# cat a
  2. 473-2473-1|柯南
  3. 473-2473-2|路飞
  4. 600-600-0|机器猫
  5. [root@localhost ~]# cat b
  6. name|fuc|473-2473-1|TYP|473-2473-2|473-2473-0|2011-2011-0|600-600-0|423-423-0|423-423-2|600-600-1
  7. name|fuc|600-600-0|TYP|473-2473-2|473-2473-0|2011-2011-0|473-2473-1|423-423-0|423-423-2|600-600-1
  8. [root@localhost ~]# awk -F\| 'NR==FNR{a[$1]=$2;next}{for(i=5;i<=NF;i++)if($i in a)print $3,a[$3],$i,a[$i],i}' a b
  9. 473-2473-1 柯南 473-2473-2 路飞 5
  10. 473-2473-1 柯南 600-600-0 机器猫 8
  11. 600-600-0 机器猫 473-2473-2 路飞 5
  12. 600-600-0 机器猫 473-2473-1 柯南 8
  13. [root@localhost ~]#
复制代码
注:你给的结果有问题吧?第三、四行的600-600-0怎么对应的是路飞?
作者: WilliBhamlll    时间: 2013-06-26 16:53
回复 6# fangww_uestc

yinyuemi的代码掉了一个分隔符。
  1. awk -F\| 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;next}$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码
不用next,用ARGIND==3就可以照下面这样写,但用next简洁多了嘛。
  1. awk -F\| 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;}ARGIND==3&&$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码

作者: fangww_uestc    时间: 2013-06-26 17:06
回复 8# WilliBhamlll

不好意思,没注意到少了分隔符,还纳闷逻辑上没有问题,怎么没输出呢

谢谢yinyuemi,WilliBhamlll,还有yestreenstars,谢谢你们,受教了。
   
作者: seesea2517    时间: 2013-06-26 22:20
回复 4# fangww_uestc


    你的注册时间比我还早呢,我更新:)哈哈。
那个 in 是针对下标的,你这个是要对比数组的值,所以不能用了:
这是个例子,可以看证明 in 是对下标的操作:
  1. $ awk 'BEGIN{a[1]="a"; a[2]="b"; for (i in a) print i ": " a[i]; if(1 in a) pri
  2. nt "1 in a"; if("a" in a) print "a in a"}'
  3. 1: a
  4. 2: b
  5. 1 in a
复制代码

作者: fangww_uestc    时间: 2013-06-27 09:07
回复 10# seesea2517

我是逛到好地方然后就注册了的的注册党...
@yinyuemi也是这样用的,我理解就是不管下标还是值,反正最后还是按照值来进行对比,不管是下标值还是数组值,这样以值的角度来看没错
可能产生错误的地方在这里NR>FNR{if(a[$3]==$3),这里我采用是值比较,而yinyuemi采用的是这个$3 in a,所以我后面是for(j in a){if(a[j]==$i),前后要一致?不大清楚,反正觉得高手的代码是非常简洁和好看,自己写的就繁琐冗长一些

   
作者: seesea2517    时间: 2013-06-27 10:48
回复 11# fangww_uestc


    嗯,前后一致的使用就能达到效果。
作者: fangww_uestc    时间: 2013-07-05 17:39
如果file1多一个700-700-1,但它与其他的没有关系,也希望反馈没有关系输出,怎么处理呢?请教@yinyuemi,@WilliBhamlll,@yestreenstars,@seesea2517

file1:
473-2473-1
473-2473-2
600-600-0
700-700-1

结果
473-2473-1 柯南 473-2473-2 路飞 5            
473-2473-1 柯南 600-600-0 机器猫 8            
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5  
...
700-700-1 鸣人 600-600-0 机器猫 无关系
700-700-1 鸣人 473-2473-1 柯南 无关系


作者: fangww_uestc    时间: 2013-07-05 17:41
黄色看得眼花,改一下颜色)
如果file1多一个700-700-1,但它与其他的没有关系,也希望反馈没有关系输出,怎么处理呢?请教@yinyuemi,@WilliBhamlll,@yestreenstars,@seesea2517

file1:
473-2473-1
473-2473-2
600-600-0
700-700-1

结果
473-2473-1 柯南 473-2473-2 路飞 5            
473-2473-1 柯南 600-600-0 机器猫 8            
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5  
...
700-700-1 鸣人 600-600-0 机器猫 无关系
700-700-1 鸣人 473-2473-1 柯南 无关系

作者: kooleon    时间: 2013-07-05 19:13
看懂一些




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2