免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1006 | 回复: 6

[文本处理] 多个文档对比(比较) [复制链接]

论坛徽章:
31
程序设计版块每日发帖之星
日期:2016-02-06 06:20:00程序设计版块每日发帖之星
日期:2016-07-20 06:20:00程序设计版块每日发帖之星
日期:2016-07-26 06:20:00每日论坛发贴之星
日期:2016-07-26 06:20:00程序设计版块每日发帖之星
日期:2016-07-27 06:20:00每日论坛发贴之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-29 06:20:00程序设计版块每日发帖之星
日期:2016-08-02 06:20:00程序设计版块每日发帖之星
日期:2016-08-06 06:20:00程序设计版块每日发帖之星
日期:2016-08-08 06:20:00程序设计版块每日发帖之星
日期:2016-08-09 06:20:00
发表于 2017-03-10 10:06 |显示全部楼层



共有5个源(分别是 a、b、c、d、e),提醒,5个源第1、2列之间的空格都一样(只有1个)


a
  1. 1 3456
  2. 34 56789
  3. 678 23
  4. 9876 4322
  5. 45 258
  6. 3 147
  7. 625 248917
复制代码

b
  1. 1 3456
  2. 34 56789
  3. 678 23
  4. 9876 4322
  5. 257 31574
复制代码

c
  1. 1 3456
  2. 34 56789
  3. 678 23
  4. 7812 315843
  5. 561 1423
复制代码

d
  1. 1 3456
  2. 34 56789
  3. 2367 36812
  4. 362 5601
复制代码

e
  1. 1 3456
  2. 102 30158
  3. 4501 21045
  4. 809 8075
复制代码


要求:同时对比比较这5个源,只比较相同的值输出。
      分别(单独)输出5个源都有的(相同)      file5
      分别(单独)输出任意4个源都有的(相同)file4
      分别(单独)输出任意3个源都有的(相同)file3
      分别(单独)输出任意2个源都有的(相同)file2

结果:
file5
  1. 1 3456
复制代码

file4
  1. 34 56789
复制代码

file3
  1. 678 23
复制代码

file2
  1. 9876 4322
复制代码




辛苦






论坛徽章:
9
操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-17 17:50:32操作系统版块每日发帖之星
日期:2016-08-01 06:20:0015-16赛季CBA联赛之广东
日期:2016-08-01 16:01:57操作系统版块每日发帖之星
日期:2016-08-04 06:20:00IT运维版块每日发帖之星
日期:2016-08-07 06:20:00操作系统版块每日发帖之星
日期:2016-08-07 06:20:0015-16赛季CBA联赛之福建
日期:2017-03-07 17:14:27
发表于 2017-03-10 10:21 |显示全部楼层
awk '{a[$0]++}END{for(i in a)if(a[i]>1)print i,a[i]}' a b c d e

论坛徽章:
31
程序设计版块每日发帖之星
日期:2016-02-06 06:20:00程序设计版块每日发帖之星
日期:2016-07-20 06:20:00程序设计版块每日发帖之星
日期:2016-07-26 06:20:00每日论坛发贴之星
日期:2016-07-26 06:20:00程序设计版块每日发帖之星
日期:2016-07-27 06:20:00每日论坛发贴之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-29 06:20:00程序设计版块每日发帖之星
日期:2016-08-02 06:20:00程序设计版块每日发帖之星
日期:2016-08-06 06:20:00程序设计版块每日发帖之星
日期:2016-08-08 06:20:00程序设计版块每日发帖之星
日期:2016-08-09 06:20:00
发表于 2017-03-10 10:35 |显示全部楼层
本帖最后由 bmne 于 2017-03-10 10:46 编辑

回复 2# Riet


麻烦再看看

这个命令只是在每一行的后面,再单独加上了一列,显示这一行重复的次数(有几个文档能匹配上)
  1. 1 3456 5
  2. 34 56789 4
  3. 9876 4322 2
  4. 678 23 3
复制代码



论坛徽章:
9
操作系统版块每日发帖之星
日期:2016-01-08 06:20:00操作系统版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-17 17:50:32操作系统版块每日发帖之星
日期:2016-08-01 06:20:0015-16赛季CBA联赛之广东
日期:2016-08-01 16:01:57操作系统版块每日发帖之星
日期:2016-08-04 06:20:00IT运维版块每日发帖之星
日期:2016-08-07 06:20:00操作系统版块每日发帖之星
日期:2016-08-07 06:20:0015-16赛季CBA联赛之福建
日期:2017-03-07 17:14:27
发表于 2017-03-10 11:06 |显示全部楼层
本帖最后由 Riet 于 2017-03-10 11:09 编辑

回复 3# bmne

这不就完了么,重复几次不就代表有几个源有,除非你单个文件里面还有重复的,至于输出到文件,数据都取出来了,这个我觉得不是主要的了吧。

论坛徽章:
31
程序设计版块每日发帖之星
日期:2016-02-06 06:20:00程序设计版块每日发帖之星
日期:2016-07-20 06:20:00程序设计版块每日发帖之星
日期:2016-07-26 06:20:00每日论坛发贴之星
日期:2016-07-26 06:20:00程序设计版块每日发帖之星
日期:2016-07-27 06:20:00每日论坛发贴之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-29 06:20:00程序设计版块每日发帖之星
日期:2016-08-02 06:20:00程序设计版块每日发帖之星
日期:2016-08-06 06:20:00程序设计版块每日发帖之星
日期:2016-08-08 06:20:00程序设计版块每日发帖之星
日期:2016-08-09 06:20:00
发表于 2017-03-10 11:13 |显示全部楼层
回复 4# Riet


好吧。谢谢

我自己再分别提取,删除第三列,等等。自己努力下


论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2017-03-10 11:17 |显示全部楼层
回复 3# bmne

$ awk '{a[$0]++}END{for(n in a)if(a[n]>1)print n > "file"a[n]}' a b c d e

$ grep . file*
file2:9876 4322
file3:678 23
file4:34 56789
file5:1 3456

论坛徽章:
31
程序设计版块每日发帖之星
日期:2016-02-06 06:20:00程序设计版块每日发帖之星
日期:2016-07-20 06:20:00程序设计版块每日发帖之星
日期:2016-07-26 06:20:00每日论坛发贴之星
日期:2016-07-26 06:20:00程序设计版块每日发帖之星
日期:2016-07-27 06:20:00每日论坛发贴之星
日期:2016-07-27 06:20:00程序设计版块每日发帖之星
日期:2016-07-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-29 06:20:00程序设计版块每日发帖之星
日期:2016-08-02 06:20:00程序设计版块每日发帖之星
日期:2016-08-06 06:20:00程序设计版块每日发帖之星
日期:2016-08-08 06:20:00程序设计版块每日发帖之星
日期:2016-08-09 06:20:00
发表于 2017-03-10 11:47 |显示全部楼层
回复 6# jason680


谢大牛出手

基本完美
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP