免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3166 | 回复: 18
打印 上一主题 下一主题

29w数据中只要重复的数据 [复制链接]

gnubuntu 该用户已被删除
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-05-31 22:39 |只看该作者 |倒序浏览
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
2 [报告]
发表于 2010-05-31 23:33 |只看该作者
本帖最后由 lkk2003rty 于 2010-05-31 23:35 编辑
  1. awk -F"|" '{if(a[$3]) {if($3 in b){print b[$3];delete b[$3]}print} else {a[$3]=1;b[$3]=$0}}' file
复制代码

论坛徽章:
0
3 [报告]
发表于 2010-06-01 01:39 |只看该作者
首先一点 ,   你的文件 需要重复的内容, 是在 行的末尾吗?

其次 重复的内容, 会不会 不连续, 比如 第一行出现了a,  然后第三行也出现了a,  是不是要把 这重复的合并??  


我现在根据你给的数据 进行了 如下操作代码。  

因你给的数据 是连续的重复行, 而且重复的数据都在行的末尾。
  1. awk -F '|' '{print $NF}' file|uniq -u > t3 && egrep -vf t3 file
复制代码
gnubuntu 该用户已被删除
4 [报告]
发表于 2010-06-01 08:50 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
5 [报告]
发表于 2010-06-01 08:58 |只看该作者
如果你第二字段已经排序,第一字段数字位数固定,单独用uniq即可实现

  1. uniq -s 9 -D file
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2010-06-01 08:58 |只看该作者
回复 4# gnubuntu


    如果已按第二字段排序,怎么会还有“间断重复”?
gnubuntu 该用户已被删除
7 [报告]
发表于 2010-06-01 08:58 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
8 [报告]
发表于 2010-06-01 10:11 |只看该作者
本帖最后由 where27 于 2010-06-01 10:24 编辑

回复 7# gnubuntu


    不知道你的文本里有什么特殊字符,先dos2unix file一下,管道越少越好吧,我觉得5楼帅哥的方法不错
  1. uniq -s 9 -D file
复制代码
gnubuntu 该用户已被删除
9 [报告]
发表于 2010-06-01 10:16 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
gnubuntu 该用户已被删除
10 [报告]
发表于 2010-06-01 10:20 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP