免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2477 | 回复: 9
打印 上一主题 下一主题

[文本处理] 求两个数据的并集 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-09-17 22:59 |只看该作者 |倒序浏览
有一个文件file1: (tab分隔)
a   12     3434   sds
b   32s   4533   fdd
c   452w  232   wwq
p   a34    1212  er

file2: (tab分隔)
b    w23s     4422   rdff
t     qqq21   2323   rtrt
p    asaw2   1212   too3
m   23232   2323   sjjj

我想要将file1和file2根据第一列匹配,求出它们的并集,结果如下:(tab分隔)
a   12     3434   sds    NA        NA      NA
b   32s   4533   fdd    w23s    4422   rdff
c   452w  232   wwq   NA        NA      NA
p   a34    1212  er     asaw2   1212   too3
t    NA     NA     NA    qqq21   2323   rtrt
m  NA      NA     NA   23232   2323   sjjj

请问我该怎么做呀????

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
2 [报告]
发表于 2014-09-17 23:17 |只看该作者
本帖最后由 Herowinter 于 2014-09-17 23:19 编辑

传说中的两个表的外连接?

论坛徽章:
0
3 [报告]
发表于 2014-09-18 00:04 |只看该作者
乱写的,没有任何章法可言。

等楼下代码学习。
  1. [root@fw awk]# awk 'BEGIN{row=1}NR==FNR{a[row]=$1;row++;b[$1]=$2"\t"$3"\t"$4;next}{if($1 in b){b[$1]= b[$1] "\t"$2"\t"$3"\t"$4;}else{a[row]=$1;row++;b[$1]="NA\tNA\tNA""\t"$2"\t"$3"\t"$4;}}END{for (i=1;i<=length(a);i++){split(b[a[i]],tmparr);if (length(tmparr) == 3){print a[i]"\t"b[a[i]]"\tNA\tNA\tNA";}else{print a[i]"\t"b[a[i]];}}}' file1  file2
  2. a       12      3434    sds     NA      NA      NA
  3. b       32s     4533    fdd     w23s    4422    rdff
  4. c       452w    232     wwq     NA      NA      NA
  5. p       a34     1212    er      asaw2   1212    too3
  6. t       NA      NA      NA      qqq21   2323    rtrt
  7. m       NA      NA      NA      23232   2323    sjjj
  8. [root@fw awk]#
复制代码

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
4 [报告]
发表于 2014-09-18 02:36 |只看该作者
  1. awk 'NR==FNR{t="\tNA\tNA\tNA";n[$1]="\t"$2"\t"$3"\t"$4}NR!=FNR{if($1 in n) {print $0,n[$1];delete n[$1];}else{print $0,t}}END{for(i in n ) print i,t,n[i]}' 2 1

  2. awk菜鸟水平路过,坐等大神们精简代码!
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
5 [报告]
发表于 2014-09-18 08:41 |只看该作者
回复 1# gooderpan


try:
  1. join -a1 -a2 -e NA -o 0,1.2,1.3,1.4,2.2,2.3,2.4 <(sort file1) <(sort file2)
复制代码

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
6 [报告]
发表于 2014-09-18 09:50 |只看该作者
本帖最后由 Herowinter 于 2014-09-18 09:54 编辑

回复 1# gooderpan
  1. awk '{key[$1];n=(ARGIND-1)*3;for(i=1;i<=3;i++)a[$1,n+i]=$(i+1)} END{for(i in key){printf i;for(j=1;j<=6;j++)printf length(a[i,j])?"\t"a[i,j]:"\tNA";print ""}}' file1 file2|sort -k1,1
  2. a       12      3434    sds     NA      NA      NA
  3. b       32s     4533    fdd     w23s    4422    rdff
  4. c       452w    232     wwq     NA      NA      NA
  5. m       NA      NA      NA      23232   2323    sjjj
  6. p       a34     1212    er      asaw2   1212    too3
  7. t       NA      NA      NA      qqq21   2323    rtrt
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2014-09-18 10:34 |只看该作者
  1. awk 'NR==FNR{a[$1]=$0;next}{t=$1;$1="";if(t in a)a[t]=a[t]$0;else a[t]=t"\tNA\tNA\tNA"$0;b[t]}END{for(i=0;i++<asorti(a,c);){if(!(c[i] in b))a[c[i]]=a[c[i]]"\tNA\tNA\tNA";print a[c[i]]}}' file1 file2
复制代码

论坛徽章:
0
8 [报告]
发表于 2014-09-19 11:04 |只看该作者
为什么我用join -a1 file2 file1得出来的只有一个结果呢?
b w23s 4422 rdff 32s 4533 fdd
t qqq21 2323 rtrt
p asaw2 1212 too3
m 23232 2323 sjjj

难道p那一行不会被连接吗?
求答案。。。。


回复 5# ly5066113


   

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
9 [报告]
发表于 2014-09-19 11:16 |只看该作者
回复 8# amandaysu


join 的文件要排序。

论坛徽章:
0
10 [报告]
发表于 2014-09-19 11:31 |只看该作者
谢谢。。。
回复 9# ly5066113


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP