免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: blss2008
打印 上一主题 下一主题

[文本处理] 去掉重复行 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2015-10-15 19:31 |只看该作者
回复 6# MMMIX


   
WIN7 64位装不了SQL,要换什么系统啊? 虚拟机装可以吗?

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
12 [报告]
发表于 2015-10-15 20:04 |只看该作者
回复 11# blss2008


    你本来就是资源(内存)不够,还想用虚拟机?那玩意更吃资源。

论坛徽章:
0
13 [报告]
发表于 2015-10-16 04:20 来自手机 |只看该作者
你不会再合并啊,合并后的文件必然小了很多吧
我说的是重复行比较多的情况

论坛徽章:
0
14 [报告]
发表于 2015-10-16 04:45 |只看该作者
回复 13# 大蚂蚁


    你所说的方法不行的,我试过每个分2G,去重后再打乱合并,再去重,循环多次,还剩35G+,实际去重后大概只有20G左右。

论坛徽章:
0
15 [报告]
发表于 2015-10-17 04:38 |只看该作者
回复 12# MMMIX




    SQL导入18157MB,用这句命令处理,每次都是蓝屏死机,什么问题。。。。select distinct convert(varchar(8000),coltext,111) from tab1;

论坛徽章:
0
16 [报告]
发表于 2015-10-17 21:13 |只看该作者
回复 12# MMMIX


   

发现SQL导入5G
用这条命令select distinct convert(varchar(8000),coltext,111) from tab1;
会出现下面的错误。
在执行批处理时出现错误。错误消息为: 引发类型为“System.OutOfMemoryException”的异常。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
17 [报告]
发表于 2015-10-17 23:32 |只看该作者
回复 16# blss2008


    你要是不会软件方面的优化,就换个好点的机器处理数据吧。

论坛徽章:
0
18 [报告]
发表于 2015-10-17 23:39 |只看该作者
回复 17# MMMIX


   

E3   32G的机子,只处理数据还不行吗? 。。。。。。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
19 [报告]
发表于 2015-10-18 11:22 |只看该作者
回复 18# blss2008


    显然,对于你采用的方式,用来处理你的数据是不够的。这种情况,要么优化算法,要么增加硬件资源。

对于你要处理的数据,只要你能把每个数据项转化为惟一的一个不太大(或者说硬件资源允许)的正整数,那么做个 bit map, 一遍扫描就足够去重了。

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
20 [报告]
发表于 2015-10-18 11:55 |只看该作者
sort的时候加上LANG=C
合并的时候用-m选项
最后用uniq
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP