免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 7007 | 回复: 6
打印 上一主题 下一主题

大数据量情况下的统计功能的设计 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-01-21 09:54 |只看该作者 |倒序浏览
存量数据约30万,每天新增几百到几千条数据不等。

用户点“统计”功能的时候,一旦选择的时间段、部门、分类等的交集稍大一点,统计结果的显示就会很慢。现在几乎是没有任何性能考虑和优化的,直接查询统计的做法。而且当目标结果集比较大的时候,服务器的CPU也好一下高很多的样子,致使整个系统都呆滞一小段时间。


请教大家有些什么策略。


我看SAP里面的一些报表,貌似是系统定时会更新的。还没想到他的实现逻辑。不知道会不会在生成的瞬间也导致CPU等资源的紧张。


我在想的是,是否能将一些花时间和计算量的内容,分散到平时进行。

如果统计只是分部门,或者分类,那么貌似还容易提前做些处理。但是统计是分部门、分类、时间段的,就没想到怎么搞了。

论坛徽章:
2
亥猪
日期:2014-03-19 16:36:35午马
日期:2014-11-23 23:48:46
2 [报告]
发表于 2011-01-21 14:13 |只看该作者
30万算小量。可以先考虑语句优化。
用的什么库?较新的库基本都支持部分统计语法。OVER ,PARTITION BY等等。

论坛徽章:
0
3 [报告]
发表于 2011-01-21 16:44 |只看该作者
谢谢版主的答复。

我这就想要以此为背景,讨论一下如何从架构层面设计一个能支持较大的数据量的统计模式。

论坛徽章:
2
亥猪
日期:2014-03-19 16:36:35午马
日期:2014-11-23 23:48:46
4 [报告]
发表于 2011-01-21 18:04 |只看该作者
本帖最后由 gvim 于 2011-01-21 18:07 编辑

回复 3# kiss2003


30W数据如果都已经出现瓶颈,那么我的建议是,如果使用的关系库,设计合理的表结构,编写高效的SQL,挖掘数据库引擎的能力,使用适当的索引,才是高效的基础。其它的都空了吹。

另外,不知做应用的时候有没有考虑系统的主要目标和设计容量?OLAP和OLTP肯定是不一样的。

论坛徽章:
24
金牛座
日期:2013-10-18 21:35:56综合交流区版块每日发帖之星
日期:2015-08-15 06:20:00综合交流区版块每日发帖之星
日期:2015-09-30 06:20:00综合交流区版块每日发帖之星
日期:2015-10-16 06:20:03每日论坛发贴之星
日期:2015-10-16 06:20:03综合交流区版块每日发帖之星
日期:2015-10-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-06 06:20:0015-16赛季CBA联赛之天津
日期:2016-02-25 16:28:04综合交流区版块每日发帖之星
日期:2016-06-12 06:20:00每日论坛发贴之星
日期:2016-06-12 06:20:00综合交流区版块每日发帖之星
日期:2016-06-13 06:20:00综合交流区版块每日发帖之星
日期:2015-06-22 22:20:00
5 [报告]
发表于 2011-01-21 18:55 |只看该作者
30W的统计,1秒应该就能解决了,前提是合理的数据结构设计。

论坛徽章:
0
6 [报告]
发表于 2011-01-23 11:46 |只看该作者
30万不多啊。。。
我们搞netflow的统计,每秒5万条,一分钟300万条,感觉也还行,4CPU,不感觉多卡
存储结构和统计算法很重要

论坛徽章:
0
7 [报告]
发表于 2011-01-24 09:11 |只看该作者
具体的统计逻辑是怎么样的?

如果是简单的count,group应该很快啊
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP