免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345下一页
最近访问板块 发新帖
查看: 8587 | 回复: 47
打印 上一主题 下一主题

天量数据如何处理? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-02-24 11:06 |只看该作者 |倒序浏览
本帖最后由 titansword2000 于 2012-02-24 17:54 编辑

需要对天量数据进行处理,单站大约1秒aK,共一天n个站点的数据,现在需要在这些数据中间进行运算,请问该如何处理?

问题补充:如果采用数组方式,系统直接告知分配的内存超过2G的错误;如采用链表方式,理论上会遇到相同问题,因为数据量远超过内存大小,应该无法将数据读入内存。

望有处理过大数据的高手指教。

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
2 [报告]
发表于 2012-02-24 11:16 |只看该作者
本帖最后由 yulihua49 于 2012-02-24 11:18 编辑
titansword2000 发表于 2012-02-24 11:06
需要对天量数据进行处理,单站大约1秒66K,共一天9个站点的数据,现在需要在这些数据中间进行运算,请问该如 ...

可以考虑NOSQL的文件处理。

ORACLE的hadoop技术。

论坛徽章:
0
3 [报告]
发表于 2012-02-24 11:19 |只看该作者
实时性要求怎么样?

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
4 [报告]
发表于 2012-02-24 11:31 |只看该作者
blackuhlan 发表于 2012-02-24 11:19
实时性要求怎么样?

你要怎么实时?

论坛徽章:
0
5 [报告]
发表于 2012-02-24 11:35 |只看该作者
我没问你,我问楼主,数据处理有没有实时性要求?

论坛徽章:
1
射手座
日期:2014-08-04 16:49:43
6 [报告]
发表于 2012-02-24 11:57 |只看该作者
存到硬盘里  ......

论坛徽章:
14
巨蟹座
日期:2013-11-19 14:09:4615-16赛季CBA联赛之青岛
日期:2016-07-05 12:36:0515-16赛季CBA联赛之广东
日期:2016-06-29 11:45:542015亚冠之全北现代
日期:2015-07-22 08:09:472015年辞旧岁徽章
日期:2015-03-03 16:54:15巨蟹座
日期:2014-12-29 08:22:29射手座
日期:2014-12-05 08:20:39狮子座
日期:2014-11-05 12:33:52寅虎
日期:2014-08-13 09:01:31巳蛇
日期:2014-06-16 16:29:52技术图书徽章
日期:2014-04-15 08:44:01天蝎座
日期:2014-03-11 13:06:45
7 [报告]
发表于 2012-02-24 11:57 |只看该作者
似乎没有好办法,以下四点属于废话
a. 改进处理算法以加快处理速度
b. 用多核并行算法以加快处理速度
c. 用GPU以加快处理速度
d. 将数据分流到多个机器上并行处理以加快处理速度

如果只是内容暂存的话,不需要全部存在内存中
a. 用大文件存,需要处理时只调入一段进内存
b. 一个大文件存不下,用许多1G的小文件存
以上还是属于废话

论坛徽章:
0
8 [报告]
发表于 2012-02-24 11:59 |只看该作者
回复 7# bruceteen


    同意。话说到我们公司来如何啊。我给你推荐下,有点奖金的哦,到时候我们平分。有意可以站短。

论坛徽章:
2
天蝎座
日期:2014-03-28 10:18:052015年亚洲杯之乌兹别克斯坦
日期:2015-02-10 11:32:25
9 [报告]
发表于 2012-02-24 12:44 |只看该作者
mapreduce

用hadoop就可以了,简单好用还tm开源

论坛徽章:
1
射手座
日期:2013-08-21 13:11:46
10 [报告]
发表于 2012-02-24 12:50 |只看该作者
我去,一秒钟66K,9个站点,就是70*10不到数据,也才700K,还叫个P天量数据
单机就能搞定.你当CPU是2啊,这么一点数据....
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP