免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2226 | 回复: 5
打印 上一主题 下一主题

[文本处理] 关于去除重复行,求助 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-10-17 22:20 |只看该作者 |倒序浏览
文本30多G,中英文都有,
目前用过几个办法都无法准确去除重复。大家帮忙看看该怎么解决。
分割成小文本来处理得话,跨文件的重复目前没思路解决。

1. awk
$ awk '!a[$0]++' 1.txt > 2.txt

用AWK的很卡,处理个1G大小的文本,挂半天才处理600多MB


2. sort
$ sort -u 1.txt > 2.txt

SORT的,1G的文本大概10来分钟左右完,但是处理后出现乱码,不知道是不是有中文的问题






3 SQL 2008 R2

用SQL处理15G的文本,用下面的语句,挂机两个小时左右就蓝屏重启了,
下图是处理5G文本时弹出的错误,

select distinct convert(varchar(8000),coltext,111) from tab1;



论坛徽章:
13
双鱼座
日期:2013-10-23 09:30:05数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00程序设计版块每日发帖之星
日期:2016-03-09 06:20:002015亚冠之塔什干火车头
日期:2015-11-02 10:07:452015亚冠之德黑兰石油
日期:2015-08-30 10:07:07数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00数据库技术版块每日发帖之星
日期:2015-08-05 06:20:002015年迎新春徽章
日期:2015-03-04 09:57:09辰龙
日期:2014-12-03 14:45:52酉鸡
日期:2014-07-23 09:46:23亥猪
日期:2014-03-13 08:46:22金牛座
日期:2014-02-11 09:36:21
2 [报告]
发表于 2015-10-18 09:22 |只看该作者
先按照文件大小切一下文件吧

论坛徽章:
0
3 [报告]
发表于 2015-10-18 13:50 |只看该作者
回复 2# bikong0411


   
分割后,跨文件的重复怎么处理。。

论坛徽章:
13
双鱼座
日期:2013-10-23 09:30:05数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00程序设计版块每日发帖之星
日期:2016-03-09 06:20:002015亚冠之塔什干火车头
日期:2015-11-02 10:07:452015亚冠之德黑兰石油
日期:2015-08-30 10:07:07数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00数据库技术版块每日发帖之星
日期:2015-08-05 06:20:002015年迎新春徽章
日期:2015-03-04 09:57:09辰龙
日期:2014-12-03 14:45:52酉鸡
日期:2014-07-23 09:46:23亥猪
日期:2014-03-13 08:46:22金牛座
日期:2014-02-11 09:36:21
4 [报告]
发表于 2015-10-19 09:47 |只看该作者
回复 3# blss2008


    合并继续去重啊

论坛徽章:
2
处女座
日期:2014-10-24 11:12:372015年辞旧岁徽章
日期:2015-03-03 16:54:15
5 [报告]
发表于 2015-10-19 15:53 |只看该作者
帮顶,看到你以前提的问题。

论坛徽章:
0
6 [报告]
发表于 2015-10-20 22:48 |只看该作者
我用sort处理中英文的文档是可以的呀,不过没处理过这么大的。不知道出来大文件出现什么状况,楼主试一试在你的环境下sort小文件是不是会出现乱码,若是那解决问题就变成了乱码问题

去重复行:
cat filename |uniq > output

or:

perl: hash
my %line;
$line{这行内容} = "";
keys %line就是去重的内容


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP