免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: liukaiyi
打印 上一主题 下一主题

求教: 大文本 中 按列去重 [复制链接]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
11 [报告]
发表于 2009-07-14 14:29 |只看该作者

回复 #10 liukaiyi 的帖子

还要跑几天?完了。

论坛徽章:
1
摩羯座
日期:2015-01-08 14:01:55
12 [报告]
发表于 2009-07-14 14:38 |只看该作者

回复 #11 blackold 的帖子

帮你接话:我心神不宁了……
PS:楼主的这个问题已经成经了……

论坛徽章:
0
13 [报告]
发表于 2009-07-17 16:20 |只看该作者

回复 #11 blackold 的帖子

实在对不起了,让大家。。。



结果 没发说 ,很糟糕
我没等到 运行结束
机器 为2u2g 配置 的
文本 1千万条的 数量
反正一小时没解决



对于速度方面  公司 打算 使用 hadoop 来处理 文本,所谓的云计算 。。。
http://hadoop.apache.org/core/


找 hadoop 资料中

[ 本帖最后由 liukaiyi 于 2009-7-17 16:23 编辑 ]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
14 [报告]
发表于 2009-07-17 16:29 |只看该作者

回复 #13 liukaiyi 的帖子

没那么夸张吧,10G就要云计算了。

可能考虑将文件分割也小文件,排序去重,再合并去重。

论坛徽章:
0
15 [报告]
发表于 2009-07-17 17:11 |只看该作者
可以先把文件分成几10份排重,然后在一点点合并排重

论坛徽章:
0
16 [报告]
发表于 2009-07-17 17:12 |只看该作者
1个小时没完?多少数据?

  1. [root]# time awk -F, '!a[$1]++' * > /dev/null

  2. real    2m10.550s
  3. user    0m49.349s
  4. sys     0m12.456s

  5. [root]# du -sh
  6. 5.9G    .

  7. [root]# cat * | wc -l
  8. 11791460
复制代码

论坛徽章:
0
17 [报告]
发表于 2009-07-17 22:08 |只看该作者
我想问一下楼主,你的数据就是"name pass"这种固定的格式吗?
两个字段分别有长度上限么

我觉得如果经常要算,可以考虑用 C 写一个程序来做这件事,也许可以得到非常小的内存占用和很快的速度

论坛徽章:
0
18 [报告]
发表于 2009-07-18 20:01 |只看该作者
只需要按列去重?要不要排序一下?

sort应该可以做到,不过速度我就不知道了……

[ 本帖最后由 mapleaigh 于 2009-7-18 21:56 编辑 ]

论坛徽章:
0
19 [报告]
发表于 2009-07-19 23:14 |只看该作者
机器好一点(100G内存) 1kw条数据应该是几分钟的事情 
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP