论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-03-17 13:32 |只看该作者 |倒序浏览

本帖最后由 cjxulicong 于 2014-03-17 13:34 编辑

例子是这样的，我有两个文件  一个文件有13万行一个文件有14万行两个文件相差1万多行
我现在需要做的事情就是比较两个文件。找出这一万行的数据出来
两个文本每行的内容不一定是一样的
比如一个文件会出现多行重复的1
a.txt
1
2
3
4
1
1
b.txt
2
3
4
1
2
3
所以基本思路是  a.文件行数比b文件少  用a里面的内容是比较b文件的内容
a b 两个文件都有的内容就去掉,这里有个问题比如a文件出现3个 1  b文件只有2个1.那么只去掉2个1 a文件多出来的1 需要显示出来
然后最后要统计出 a 里面有哪些内容是b文件里面没有的  b文件里面有哪些内容是 a 里面没有的

所以要导出两个文件
c文件里面显示 a里面独有的行
d文件里面显示 b里面独有的行
不知道我这么描述能不能描述清楚

文库|博客

r2007

广告杀手

论坛徽章:: 7

2楼 [报告]

发表于 2014-03-17 13:39 |只看该作者

去重sort后，再用diff，不知道行不行？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

3楼 [报告]

发表于 2014-03-17 13:44 |只看该作者

diff -U1 filea fileb

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

4楼 [报告]

发表于 2014-03-17 13:46 |只看该作者

回复 2# r2007

我觉得应该不行。。。因为所在行数不一样。。。
用grep吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cjxulicong

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2014-03-17 13:51 |只看该作者

本帖最后由 cjxulicong 于 2014-03-17 13:53 编辑

回复 2# r2007

[root@baidu shell]# cat a|uniq -c
   3 1
   1 2
   1 3
   1 4
[root@baidu shell]# cat b|uniq -c
   1 1
   2 2
   2 3
   1 4
比如我现在已经排序了并且去重了，但是我要知道比如 a文件里面有3个1  b 文件里面有1 个1  那么所以a文件就多了两个1 这个要输出为结果。
就以上面两个例子来说
我要得到的结果为
c 文件内容为
1
1
d文件内容为
2
3

不知道这么说会不会清楚一点  可以表达的方式不一样。但是主要是我要知道两个文件到底是那些数据不一致。也包括重复的次数

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cjxulicong

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2014-03-17 13:56 |只看该作者

回复 3# q1208c

谢谢q1208c 大大，我输出的是这个我看看能不能过滤出我想要的内容
[root@baidu shell]# diff -U 1 a b
--- aa 2014-03-17 13:48:03.000000000 +0800
+++ bb 2014-03-17 13:49:14.000000000 +0800
@@ -1,5 +1,5 @@
1
-1
-1
2
+2
+3
3

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

7楼 [报告]

发表于 2014-03-17 13:56 |只看该作者

==>$ grep -F -v -f a.txt b.txt | sort | uniq
==>$ grep -F -v -f b.txt a.txt | sort | uniq

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lijixing8899 lijixing8899 当前离线禁止发言好友博客消息论坛徽章: 1	8楼 [报告] 发表于 2014-03-17 14:05 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？