免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1438 | 回复: 7
打印 上一主题 下一主题

[文本处理] 文本间比较的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-07-17 08:58 |只看该作者 |倒序浏览
如果是两个文本间比较取与,我用的是sort t1.txt t2.txt|uniq -d >>tt.txt

我现在想要对4个文本进行对比,并输出文4本中重复的内容和重复的次数:
如:t1.txt : a b c
      t2.txt: a b c d
      t3.txt: a b c d e
      t4.txt: a b c d e f
需要输出的内容为:4  a
                         4  b
                         4  c
                         3  d
                         2  e
                         1  f
请求高手指点!

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
2 [报告]
发表于 2013-07-17 09:05 |只看该作者
  1. [WilliBhamlll@CC ~]$ head [1-4].txt
  2. ==> 1.txt <==
  3. a b c

  4. ==> 2.txt <==
  5. a b c d

  6. ==> 3.txt <==
  7. a b c d e

  8. ==> 4.txt <==
  9. a b c d e f
  10. [WilliBhamlll@CC ~]$ awk '{for(i=0;i++<NF;)a[$i]++}END{for(i in a)print a[i],i}' [1-4].txt  
  11. 4 a
  12. 4 b
  13. 4 c
  14. 3 d
  15. 2 e
  16. 1 f
复制代码

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
3 [报告]
发表于 2013-07-17 09:08 |只看该作者
难道2和4有本质区别?

论坛徽章:
0
4 [报告]
发表于 2013-07-17 09:10 |只看该作者
可以实现了!谢谢,数组实在是神器。。我还要多学习回复 2# WilliBhamlll


   

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
5 [报告]
发表于 2013-07-17 09:25 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
6 [报告]
发表于 2013-07-17 10:06 |只看该作者
本帖最后由 关阴月飞 于 2013-07-17 10:08 编辑

回复 1# 88626285

和楼上同问:既然两个文件可以sort t1.txt t2.txt|uniq -d >>tt.txt 达到要求,难道四个文件 就不能直接 sort t1.txt t2.txt t3.txt t4.txt|uniq -d >>tt.txt  ??
  1. cat t[1-4].txt |xargs -n1 |sort |uniq -c  
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2013-07-17 10:13 |只看该作者
  1. [root@localhost test]# awk -vRS='[ \n]' '{a[$0]++}END{for(i in a)print a[i],i}' t[1-4].txt
  2. 4 a
  3. 4 b
  4. 4 c
  5. 3 d
  6. 2 e
  7. 1 f
  8. [root@localhost test]#
复制代码

论坛徽章:
0
8 [报告]
发表于 2013-07-17 13:03 |只看该作者
这样的结果是错的,我在网上找的
3. 求A和B的差集
   sort A  B  B | uniq -u
好像sort 4个文件出来的结果不是他们与的结果回复 6# 关阴月飞


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP