免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2738 | 回复: 14
打印 上一主题 下一主题

[文本处理] 多个文件关联输出的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-06-26 15:23 |只看该作者 |倒序浏览
比如三个文件file1,file2,fiel3
file1的内容为:
473-2473-1
473-2473-2
600-600-0
.....

file2的内容为:
name|fuc|473-2473-1|TYP|473-2473-2|473-2473-0|2011-2011-0|600-600-0|423-423-0|423-423-2|600-600-1
name|fuc|600-600-0|TYP|473-2473-2|473-2473-0|2011-2011-0|473-2473-1|423-423-0|423-423-2|600-600-1
...

file3的内容为
473-2473-1|柯南
473-2473-2|路飞
600-600-0|机器猫
....


file1的第一个字段,file2的第三个字段和file3的第一个字段为关联字段

希望的输出效果为:将file1中第一栏出现的字段两两配对,找出配对的
473-2473-1 柯南 473-2473-2 路飞 5            
473-2473-1 柯南 600-600-0 机器猫 8            
600-600-0 路飞 473-2473-1 柯南 8
600-600-0 路飞 473-2473-2 路飞 5                                                  
.....

#第一栏为file1的第一字段,                                                            
#第二栏为file1字段在file3中的第二个字段,                                                              
#第三栏为file1出现的要配对字段,
#第四栏为配对字段在file3的第二个字段,
#第五栏为配对字段在file2中出现的栏位编号


----------------
目前file1和file2的关联我这样写的:
awk -F\| 'NR==FNR{a[$1]=$1}NR>FNR{if(a[$3]==$3){for(i=4;i<NF;i++){for(j in a){if(a[j]==$i)print $3,$i,i}}}}' file1 file2 |awk '{if(!a[$0]++)print}'
得出这个结果,是符合预期的,因为有重复多了个去重:
473-2473-1 473-2473-2 5
473-2473-1 600-600-0 8
600-600-0 473-2473-2 5
600-600-0 473-2473-1 8


但总觉得很复杂,假如三个文件关联呢,请教各位达人有没有好的方法,谢谢。

论坛徽章:
0
2 [报告]
发表于 2013-06-26 15:32 |只看该作者
不知说清楚问题没有多多包涵

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
3 [报告]
发表于 2013-06-26 15:35 |只看该作者
你的方法不是挺好的嘛,没看上去多复杂

论坛徽章:
0
4 [报告]
发表于 2013-06-26 15:53 |只看该作者
回复 3# seesea2517

这里for(j in a){if(a[j]==$i)本来一开始用if($i in a)来代替的,但搞不明白为什么不对,不得已循环比较
多个文件的情况呢
新手来的,请多多指教


   

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
5 [报告]
发表于 2013-06-26 16:10 |只看该作者
回复 4# fangww_uestc


    try:
  1. awk 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;next}$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码

论坛徽章:
0
6 [报告]
发表于 2013-06-26 16:34 |只看该作者
回复 5# yinyuemi

谢谢yinyuemi

但执行结果没有任何输出呢

另外再请教一下:
1,ARGIND==2那里为什么需要next呢?不是很理解这个,刚才百度了一下next用法,还不是很明白在这里的用法
2,不用ARGIND==3吗?是默认直接进行对下一个文件进行处理吗?


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2013-06-26 16:52 |只看该作者
本帖最后由 yestreenstars 于 2013-06-26 16:57 编辑

貌似只要两个文件就可以了,顺序跟你的有点不一样,如果要求顺序,我再改改~
  1. [root@localhost ~]# cat a
  2. 473-2473-1|柯南
  3. 473-2473-2|路飞
  4. 600-600-0|机器猫
  5. [root@localhost ~]# cat b
  6. name|fuc|473-2473-1|TYP|473-2473-2|473-2473-0|2011-2011-0|600-600-0|423-423-0|423-423-2|600-600-1
  7. name|fuc|600-600-0|TYP|473-2473-2|473-2473-0|2011-2011-0|473-2473-1|423-423-0|423-423-2|600-600-1
  8. [root@localhost ~]# awk -F\| 'NR==FNR{a[$1]=$2;next}{for(i=5;i<=NF;i++)if($i in a)print $3,a[$3],$i,a[$i],i}' a b
  9. 473-2473-1 柯南 473-2473-2 路飞 5
  10. 473-2473-1 柯南 600-600-0 机器猫 8
  11. 600-600-0 机器猫 473-2473-2 路飞 5
  12. 600-600-0 机器猫 473-2473-1 柯南 8
  13. [root@localhost ~]#
复制代码
注:你给的结果有问题吧?第三、四行的600-600-0怎么对应的是路飞?

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
8 [报告]
发表于 2013-06-26 16:53 |只看该作者
回复 6# fangww_uestc

yinyuemi的代码掉了一个分隔符。
  1. awk -F\| 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;next}$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码
不用next,用ARGIND==3就可以照下面这样写,但用next简洁多了嘛。
  1. awk -F\| 'ARGIND==1{a[$1]}ARGIND==2{b[$1]=$2;}ARGIND==3&&$3 in a{for(i=4;i<=NF;i++){if($i in a)print $3,b[$3],$i,b[$i],i}}' file1 file3 file2
复制代码

论坛徽章:
0
9 [报告]
发表于 2013-06-26 17:06 |只看该作者
回复 8# WilliBhamlll

不好意思,没注意到少了分隔符,还纳闷逻辑上没有问题,怎么没输出呢

谢谢yinyuemi,WilliBhamlll,还有yestreenstars,谢谢你们,受教了。
   

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
10 [报告]
发表于 2013-06-26 22:20 |只看该作者
回复 4# fangww_uestc


    你的注册时间比我还早呢,我更新:)哈哈。
那个 in 是针对下标的,你这个是要对比数组的值,所以不能用了:
这是个例子,可以看证明 in 是对下标的操作:
  1. $ awk 'BEGIN{a[1]="a"; a[2]="b"; for (i in a) print i ": " a[i]; if(1 in a) pri
  2. nt "1 in a"; if("a" in a) print "a in a"}'
  3. 1: a
  4. 2: b
  5. 1 in a
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP