免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7413 | 回复: 14
打印 上一主题 下一主题

shell(sed、awk)处理大数据的文件 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-02-22 09:53 |只看该作者 |倒序浏览
几个T的数据 只有一列(该列数据不超过30个字符)  问题: 求出 该列中出现次数最多的10个数据,并排序

要求:
只用shell脚本(包括awk、sed)
要有很高的时间效率

论坛徽章:
0
2 [报告]
发表于 2011-02-22 09:58 |只看该作者
几个T估计怎么写都不会快。。。。。

论坛徽章:
0
3 [报告]
发表于 2011-02-22 10:00 |只看该作者
如果原来需要2天能处理完, 现在需1天 这也叫效率

论坛徽章:
0
4 [报告]
发表于 2011-02-22 10:05 |只看该作者
回复 1# chenbin200818


    你的磁盘真够大

论坛徽章:
0
5 [报告]
发表于 2011-02-22 10:28 |只看该作者
是服务器处理 有高手解答吗

论坛徽章:
0
6 [报告]
发表于 2011-02-22 10:36 |只看该作者
导入数据库然后写sql。。。。。

论坛徽章:
0
7 [报告]
发表于 2011-02-22 10:37 |只看该作者
请用shell来解答

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
8 [报告]
发表于 2011-02-22 10:44 |只看该作者
这个可能是"大工程"啊.
你估计大概有多少个不同的数据?

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
9 [报告]
发表于 2011-02-22 10:52 |只看该作者
这个可能是"大工程"啊.
你估计大概有多少个不同的数据?
cjaizss 发表于 2011-02-22 10:44



    但这样的统计用hashtable是应该的.
   你试试awk里的hashtable可以不可以解决你的问题,只是建议.如果不同数据太多,可能导致很慢.

论坛徽章:
0
10 [报告]
发表于 2011-02-22 15:35 |只看该作者
都没有什么意见吗
如果 文件大小改成 10G 有人有答案吗
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP