免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4815 | 回复: 15

[文本处理] 合并两个文件 [复制链接]

论坛徽章:
0
发表于 2014-08-21 16:47 |显示全部楼层
大家好:
我有两个文件,需要根据第二列合并两个文件,我用join -1 2 -2 2 <(sort -k2,2 data1.txt) <(sort -k2,2 data2.txt)命令,但并不是理想结果,请高手指点迷津!!非常谢谢!!

data1.txt
a        ll        33
a        ld        34
a        dd        89
b        ll        09
b        dd        33
c        ll        86
c        ld        20

data2.txt
k1        ll
k1        dd
k2        ll
k3        ll
k3        ld

理想结果:
a        k1        ll        33
a        k2        ll        33
a        k3        ll        33
a        k3        ld        34
a        k1        dd        89
b        k1        ll        09
b        k2        ll        09
b        k3        ll        09
b        k1        dd        33
c        k1        ll        86
c        k2        ll        86
c        k3        ll        86
c        k3        ld        20

论坛徽章:
9
寅虎
日期:2013-12-02 12:49:22巨蟹座
日期:2014-07-18 18:13:34卯兔
日期:2014-07-25 14:43:08子鼠
日期:2014-07-26 10:10:51酉鸡
日期:2014-07-31 15:09:562015亚冠之本尤德科
日期:2015-05-19 09:27:382015亚冠之卡尔希纳萨夫
日期:2015-06-20 10:30:212015亚冠之阿尔纳斯尔
日期:2015-07-01 20:46:062015亚冠之城南
日期:2015-07-15 21:12:00
发表于 2014-08-21 17:03 |显示全部楼层
  1. awk 'NR==FNR{a[NR]=$1;b[NR]=$2;next}{for(i=1;i<=length(b);i++) if($2==b[i]) print $1,a[i],$2,$3}' data2.txt data1.txt
复制代码

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
发表于 2014-08-21 17:10 |显示全部楼层
没什么错误呀, 只是输出的列顺序跟你想要的不太一样, 用awk换一下就行了吧?

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
发表于 2014-08-21 17:21 |显示全部楼层
本帖最后由 关阴月飞 于 2014-08-21 17:23 编辑

可以使用 -o 指定输出格式的:
最后再排个序就可以了
  1. join -1 2 -2 2 -o 1.1,2.1,0,1.3 <(sort -k2,2 1) <(sort -k2,2 2) |sort  
复制代码

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
发表于 2014-08-21 17:24 |显示全部楼层
本帖最后由 bulletmarquis 于 2014-08-21 17:25 编辑

是要这个效果么?

cat aa
a        ll        33
a        ld        34
a        dd        89
b        ll        09
b        dd        33
c        ll        86
c        ld        20

cat bb
k1        ll
k1        dd
k2        ll
k3        ll
k3        ld

awk 'NR==FNR{a[$2]=a[$2]" "$1};NR>FNR&&a[$2]{split(a[$2],c," ");for (b in c) printf "%s %s %s %s\n",$1,c,$2,$3}' bb aa
a k1 ll 33
a k2 ll 33
a k3 ll 33
a k3 ld 34
a k1 dd 89
b k1 ll 09
b k2 ll 09
b k3 ll 09
b k1 dd 33
c k1 ll 86
c k2 ll 86
c k3 ll 86
c k3 ld 20

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
发表于 2014-08-21 17:27 |显示全部楼层
回复 2# lifayi2008


    赞,这个写法比我的好很多啊

论坛徽章:
0
发表于 2014-08-21 17:31 |显示全部楼层
非常谢谢大家的指教!!

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
发表于 2014-08-21 17:38 |显示全部楼层
这好像是数据库的左链接功能吧?

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-08-21 18:10 |显示全部楼层
  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;

  4. my %hash;
  5. open(FILE1, "b") or die;
  6. push(@{$hash{(split)[1]}}, (split)[0]) while <FILE1>;
  7. close(FILE1);

  8. open(FILE2, "a") or die;
  9. while(<FILE2>){
  10.         for my $i (0..$#{$hash{(split)[1]}}){
  11.                 print join("\t", (split)[0], $hash{(split)[1]}[$i], (split)[1, 2]), $/;
  12.         }
  13. }
  14. close(FILE2);
复制代码

论坛徽章:
0
发表于 2014-08-21 21:07 |显示全部楼层
perl写得很棒
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP