免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3111 | 回复: 7
打印 上一主题 下一主题

[文本处理] 多个文件内容的合并,排序,查重 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-05-25 09:48 |只看该作者 |倒序浏览
本帖最后由 Fermaa 于 2016-05-25 09:48 编辑

现有文件a与b,需要将其内容进行整体的查重、排序处理。最终将出现次数>3的内容写到c,=<3的内容写到d中。
问题如下:
#cat a.txt                                 sort a.txt | uniq -c
13899188818                           3 13365250916
13977652354                           6 13899188818
13899188818                           3 13977652354
13365250916
13899188818
13899188818
13365250916
13899188818
13977652354
13899188818
13977652354
13365250916
-----------------
#cat b.txt                                 sort b.txt | uniq -c
13365250916                           4 13365250916
15220160525                           3 13616498281
13616498281                           5 15220160525
15220160525
15220160525
13365250916
13365250916
13616498281                                                                     
13365250916
15220160525
15220160525
13616498281                                                      
--------------------------------------
最终想达到这样的效果                                    求大神指点!!!!!
#cat c.txt
7 13365250916
6 13899188818
5 15220160525
#cat d.txt
3 13616498281
3 13977652354

求职 : 技术支持/维
论坛徽章:
0
2 [报告]
发表于 2016-05-25 10:00 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
3 [报告]
发表于 2016-05-25 10:06 |只看该作者
回复 1# Fermaa
  1. sort A B | uniq -c | grep -P '^ *[1-3] ' >d
复制代码
  1. sort A B | uniq -c | grep -Pv '^ *[1-3] ' >c
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2016-05-25 10:09 |只看该作者
$ awk '{++a[$1]}END{for(n in a){f=a[n]>3?"c":"d";print a[n],n > f".txt"}}' a.txt b.txt

$ cat c.txt
6 13899188818
5 15220160525
7 13365250916

$ cat d.txt
3 13616498281
3 13977652354

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
5 [报告]
发表于 2016-05-25 10:09 |只看该作者
  1. awk '{a[$1]++}END{for(i in a)print a[i]"\t"i|"sort -k1nr>"(a[i]>2?"max":"min")}'
复制代码

论坛徽章:
12
射手座
日期:2014-10-02 11:31:29程序设计版块每日发帖之星
日期:2016-05-28 06:20:00每日论坛发贴之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-27 06:20:00程序设计版块每日发帖之星
日期:2016-05-25 06:20:00每日论坛发贴之星
日期:2016-05-24 06:20:00程序设计版块每日发帖之星
日期:2016-05-24 06:20:0015-16赛季CBA联赛之深圳
日期:2016-05-23 15:33:59程序设计版块每日发帖之星
日期:2016-05-20 06:20:00程序设计版块每日发帖之星
日期:2016-04-26 06:20:00神斗士
日期:2015-12-03 09:27:3215-16赛季CBA联赛之八一
日期:2016-12-29 09:56:05
6 [报告]
发表于 2016-05-25 21:05 |只看该作者
回复 3# liion631818

非常感谢大神指点
   

论坛徽章:
0
7 [报告]
发表于 2016-05-26 00:37 |只看该作者
本帖最后由 lll1985911 于 2016-05-26 00:47 编辑

回复 1# Fermaa


    不能将a和b两个文件合并为一个文件,然后再整体查重、排序处理么?
  1. cat a.txt b.txt | sort | uniq -c | awk '$1>3{print > "c.txt";next} {print > "d.txt"}'
复制代码
不知道我理解的对不对!

论坛徽章:
0
8 [报告]
发表于 2016-05-26 13:03 |只看该作者
这个方法也对。实际中的文件更大可能合并之后会很慢回复 7# lll1985911


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP