免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 14593 | 回复: 54
打印 上一主题 下一主题

如何去除具有相同字段的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-06-04 10:40 |只看该作者 |倒序浏览
如下:

54887635|20100603123023|20370101000000|DG000000000038226127|
54887635|20100130175345|20370101000000|DG000000000038226127|


现在目的是去除第一个字段相同的行,上面列举的是相同的行,其中该文件涉及1000万行数据,目的是通过第一个字段进行过滤,去除第一个字段相同的行,麻烦各位兄弟给看看!在线等待!

论坛徽章:
0
2 [报告]
发表于 2010-06-04 10:48 |只看该作者
回复 1# luck_libiao


    在给多点数据行吗?然后再给出你的需求
这样可以节省大家的时间,要不还得猜你的意思

论坛徽章:
0
3 [报告]
发表于 2010-06-04 10:56 |只看该作者
回复 1# luck_libiao


    比如数据如下:
24000044|20080101000000|20370101000000|DG000000000032378684|
54000100|20091228171801|20370101000000|DG000000000037871181|
24000045|20080101000000|20370101000000|DG000000000032379995|
54000101|20091228171801|20370101000000|DG000000000037871193|
24000046|20080101000000|20370101000000|DG000000000032379776|
24000047|20080101000000|20370101000000|DG000000000032380012|
54000103|20091228171804|20370101000000|DG000000000037871232|
54000105|20091228171819|20370101000000|DG000000000037871213|
24000050|20080101000000|20370101000000|DG000000000032398894|
54000106|20091228171819|20370101000000|DG000000000037871209|
54887635|20100603123023|20370101000000|DG000000000038226127|
54887635|20100130175345|20370101000000|DG000000000038226127|

其中删除重复字段出现的行,其实这些数据都是内存库中的数据,将内存库的数据导出后生成cbe_subscriber.unl文件,
实现的结果犹如:
select distinct(subscriberkey) from cbe_subscriber 注:第一个字段即:subscriberkey
但是由于已经导成文件了,并且内存库中,无法进行去重复字段的行,所以需要用脚本来实现,麻烦兄弟们看下!

论坛徽章:
0
4 [报告]
发表于 2010-06-04 10:57 |只看该作者
awk -F"|" '!a[$1]++' file

论坛徽章:
11
金牛座
日期:2015-03-19 16:56:22数据库技术版块每日发帖之星
日期:2016-08-02 06:20:00数据库技术版块每日发帖之星
日期:2016-04-24 06:20:00数据库技术版块每日发帖之星
日期:2016-04-13 06:20:00IT运维版块每日发帖之星
日期:2016-04-13 06:20:00数据库技术版块每日发帖之星
日期:2016-02-03 06:20:00数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00季节之章:春
日期:2015-03-27 15:54:57羊年新春福章
日期:2015-03-27 15:54:37戌狗
日期:2015-03-19 16:56:41数据库技术版块每日发帖之星
日期:2016-08-18 06:20:00
5 [报告]
发表于 2010-06-04 10:58 |只看该作者
awk -F'|' '! a[$1]++' ufile           

这个都是周经了..

论坛徽章:
0
6 [报告]
发表于 2010-06-04 11:03 |只看该作者
回复 4# aluoyeshi


    我先试下!

论坛徽章:
0
7 [报告]
发表于 2010-06-04 11:05 |只看该作者
回复 3# luck_libiao


    3楼和4楼不是你的意思吧?我现在看总决赛呢~ 等会儿吧呵呵

论坛徽章:
0
8 [报告]
发表于 2010-06-04 11:06 |只看该作者
如果第一个字段都是8位的话
  1. uniq -u -w 8 file
复制代码

论坛徽章:
0
9 [报告]
发表于 2010-06-04 11:10 |只看该作者
回复 8# lkk2003rty


    没错~你的还是LZ要的

论坛徽章:
0
10 [报告]
发表于 2010-06-04 11:21 |只看该作者
sort -u -n file
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP