论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-11-20 11:28 |只看该作者 |倒序浏览

a和b文件的内容大致如下且经过!a[$0]++去重：
1031878416
2011187736
1020032987
1003585075
2018336682
2022934236

进过如下处理后为什么c+a总条数不等于b文件的总条数？
awk 'NR==FNR{array[$0]++}NR>FNR{if(!(array[$0]))print}' a b > c

# wc -l a
16489 a
# wc -l b
1405763 b
# wc -l c
1389522 c

文库|博客

li0924

家境小康

论坛徽章:: 7

2楼 [报告]

发表于 2013-11-20 11:36 |只看该作者

cat b a a | sort | uniq -u > c
awk 'NR==FNR{a[$0]=1;next}{if(! a[$0])print}' a b

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Herowinter

富可敌国

论坛徽章:: 780

3楼 [报告]

发表于 2013-11-20 11:37 |只看该作者

本帖最后由 Herowinter 于 2013-11-20 11:39 编辑

感觉这是个数学集合论的问题
集合a 3个元素{a,b,c}
集合b 3个元素{b,c,d}
集合c(b中有a中没有) 1个元素{d}
集合a+c 4个元素{a,b,c,d}

a+c元素个数4不等于b中元素个数3。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

4楼 [报告]

发表于 2013-11-20 12:18 |只看该作者

[root@localhost ~]# head a b
==> a <==
1
2
3
==> b <==
2
3
4
[root@localhost ~]# awk 'NR==FNR{a[$0];next}!($0 in a)' a b > c
[root@localhost ~]# wc -l a b c
3 a
3 b
1 c
7 总用量
[root@localhost ~]#

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

5楼 [报告]

发表于 2013-11-20 13:42 |只看该作者

回复 1# 一轮秋影
如果只是要找出b中有a中没有的, awk并不合适, 原因是内存占用. 可以试一下 sort和 diff

sort a > a.sort
sort b > b.sort

diff b.sort a.sort > c

由于 diff 只会输出不同的部分, 只要根本你处需要把 '>' 或是 '<' 的行打出来, 就是你想要的了.