免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4001 | 回复: 10
打印 上一主题 下一主题

[文本处理] 请教 两个文本去重问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-24 17:09 |只看该作者 |倒序浏览
本帖最后由 itpoor 于 2014-01-24 17:09 编辑

大神们,我现在有两个文本:
a.txt
  1. 湖南|1|1
  2. 湖北|1|1
  3. 北京|1|1
复制代码
b.txt
  1. 湖南|2|1
  2. 湖北|2|1
  3. 上海|2|1
复制代码
我想要的结果是:根据|前面的词去重,并按照第二个域里的数字从小到大排序,最后将去重后的文本组合到一个文本里:

  1. 湖南|1|1
  2. 湖北|1|1
  3. 北京|1|1
  4. 上海|2|1
复制代码
麻烦各位大神赐教了。。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2014-01-24 17:22 |只看该作者
  1. cat a.txt b.txt | awk -F '|' '!a[$1]++' | sort -t '|' -k2,2n
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-01-24 17:27 |只看该作者
回复 2# Shell_HAT


    我这里运行结果是这样的
  1. 北京|1|1湖南|2|1
  2. 湖北|1|1
  3. 湖南|1|1
  4. 上海|2|1
复制代码

请问怎么把  湖南|2|1 干掉?

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
4 [报告]
发表于 2014-01-24 17:33 |只看该作者
回复 3# itpoor


    sort -u -t'|' -k1,1 file1 file2 | sort -n -t '|' -k2,2

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
5 [报告]
发表于 2014-01-24 17:34 |只看该作者
回复 3# itpoor


cat -A a.txt
cat -A b.txt
结果贴出来看看

论坛徽章:
0
6 [报告]
发表于 2014-01-24 17:37 |只看该作者
回复 4# q1208c


    测试成功 。。感谢大神。。

论坛徽章:
0
7 [报告]
发表于 2014-01-24 17:38 |只看该作者
回复 5# Shell_HAT


   

我用的是 cygwin

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2014-01-24 17:39 |只看该作者
回复 7# itpoor


    最后一行的行尾没有结束符号

论坛徽章:
0
9 [报告]
发表于 2014-01-24 17:43 |只看该作者
回复 8# Shell_HAT


    原来如此 ,刚去弄加了个。。 测试成功了,感谢大神~~

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
10 [报告]
发表于 2014-01-24 22:50 |只看该作者
awk -F\| '!a[$1]++' f1 f2 | sort -t\| -bk2,2n
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP