免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2348 | 回复: 19
打印 上一主题 下一主题

[文本处理] 删除相同列的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-09-25 14:07 |只看该作者 |倒序浏览
如下:

b1946ac92492d2347c6235b4d2611184  /tmp/A/1.txt
764efa883dda1e11db47671c4a3bbd9e   /tmp/A/2.txt
d82b717e817375fbd1cc6a4a33c7b933   /tmp/A/3.txt
764efa883dda1e11db47671c4a3bbd9e   /tmp/B/2.txt
d82b717e817375fbd1cc6a4a33c7b933   /tmp/B/3.txt
d41d8cd98f00b204e9800998ecf8427e   /tmp/B/4.txt

删除第一列内容相同的行,留下:
b1946ac92492d2347c6235b4d2611184  /tmp/A/1.txt
d41d8cd98f00b204e9800998ecf8427e   /tmp/B/4.txt

论坛徽章:
1
天蝎座
日期:2014-09-11 10:48:27
2 [报告]
发表于 2014-09-25 14:14 |只看该作者
  1. for i in `awk '{print $1}' test.txt | sort | uniq -u`; do grep $i test.txt >> new.txt; done
复制代码
比较笨的办法,

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
3 [报告]
发表于 2014-09-25 14:18 |只看该作者
  1. awk '!a[$1]++{b[$1]=$0}a[$1]>1{delete b[$1]}END{for(i in b)print b[i]}' file
复制代码

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
4 [报告]
发表于 2014-09-25 14:18 |只看该作者
  1. awk '{b[$1]=$0;if(++a[$1]>1)delete b[$1]}END{for(i in b)print b[i]}' file
复制代码

论坛徽章:
0
5 [报告]
发表于 2014-09-25 14:25 |只看该作者
我用 awk 'arr[$1]++' 出来的是第一列内容相同的行,有没有更简单的方法?

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
6 [报告]
发表于 2014-09-25 14:32 |只看该作者
  1. awk '{a[$1]++;b[$1]=$0}END{for(i in a)if(a[i]==1)print b[i]}'
复制代码

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
7 [报告]
发表于 2014-09-25 14:35 |只看该作者
本帖最后由 reyleon 于 2014-09-25 14:38 编辑
  1. awk '{x[$1]=$0;if(!y[$1]++)z[++n]=$1;else{delete x[$1];--n}}END{for(i=0;i++<n;)print x[z[i]]}' file
复制代码

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
8 [报告]
发表于 2014-09-25 14:44 |只看该作者
  1. awk '{a[$1]++;b[$1]=$0}END{for(i in a)if(a[i]<2)print b[i]}' urfile
复制代码

论坛徽章:
1
处女座
日期:2014-09-18 16:18:00
9 [报告]
发表于 2014-09-25 15:15 |只看该作者
  1. awk -F\/ '{a[$4]++;b[$4]=$0}END{for(i in a)if(a[i]==1)print b[i]}' testfile
复制代码

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
10 [报告]
发表于 2014-09-25 15:16 |只看该作者
回复 5# hanyi412

    莫非是这个意思?
  1. grep -vf <( awk 'a[$1]++{print $1}' file) file
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP