免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2779 | 回复: 8
打印 上一主题 下一主题

本版最火!各路高手请多指点集中数据处理的设计问题! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-07-18 12:04 |只看该作者 |倒序浏览
1、系统由一个或多个数据处理中心及许多名为探针的设备构成。
2、探针设备负责采集数据,并对数据进行简单的处理。然后上传(或同步)数据到数据中心。(探针目前使用的是X86工控机,而且想关程序设计已经基本完成)
3、数据中心负责将探针设备上传来的数据存入数据库中。
4、数据中心负责向用户提供GUI接口。方便用户对数据的查询、统计、分类等操作。
5、探针设备每秒约处理数据2000~4000条。平均每条记录大小约512字节。
6、目前探针的数据保存使用mysql数据库。

7、数据中心所能管理的探针数未确定,因为经验不足,我无法得知,总之越多越好。
8、数据中心所用数据库未确定。肯定的是我们只能提供使用开源数据库,而且稳定性也很重要。



现求各路高手讨论出一个计设方案,或提供一些我考虑的重点:


现在我主要的问题是:

1、数据库中心使用什么数据库,如果处理大数据量(TB级, 百亿条记录)。mysql是否可以?
2、探针与数据中心同步问题。约多长时间同步一次。如果保正容错性及高性能?

论坛徽章:
1
15-16赛季CBA联赛之四川
日期:2016-02-15 17:12:32
2 [报告]
发表于 2011-07-18 13:01 |只看该作者
有点像数据仓库的样子啊。一天采集一次,数据仓库中自能看到钱一天的数据,使用拉链法做成历史记录。

论坛徽章:
0
3 [报告]
发表于 2011-07-18 14:41 |只看该作者
学习下经验,楼上的解答很好- -

论坛徽章:
0
4 [报告]
发表于 2011-07-18 18:22 |只看该作者
有无这样的开源项目,做的比较成功的呢? 我来参考一下!

论坛徽章:
0
5 [报告]
发表于 2011-07-18 18:27 |只看该作者
一天采集一次周期太长了。

1、用户可能无法接受今天看昨天的数据。
2、探针大约每秒2000条。每条512字节,一天的数据量,集中在某一时间段上传,同时多个探针上传,会不会数据量太大呢?

论坛徽章:
0
6 [报告]
发表于 2011-07-18 20:50 |只看该作者
多个mysql 做ha,拆。

hbase or other nosql

论坛徽章:
0
7 [报告]
发表于 2011-07-18 20:51 |只看该作者
多个mysql 做ha,拆。

hbase or other nosql

论坛徽章:
0
8 [报告]
发表于 2011-07-19 09:02 |只看该作者
你的数据量每秒钟为: 512bytes * 3000(平均) = 1536000bytes = 1500Kbytes = 1.46M/s
一般的百兆网卡也才 12.5Mbytes/s。这个数据量算起来还是有点大。如果直接是在公网上传输,
毕竟你的探针设备连接到公网上的线路情况我不了解。故我强烈建议在探针设备上对数据进行压缩。
然后在传送到服务器端,在做入库处理。压缩算法我建议你选snaapy 或者quicklz都成,看你的
数据格式了。
对于服务器端怎么入库?目前看你使用的是mysql,由于产生的数据量很大,故必须对数据库的入库
做一些分表处理,比如。一个探针设备的数据建立一张表(你的探针设备应该有相应的唯一id),等等。
这个你目前的得具体逻辑不大清楚,我也不好评论。

论坛徽章:
0
9 [报告]
发表于 2011-07-19 09:05 |只看该作者
另外,你的数据量很大,入库的时候有大量的插入操作,这个可能直接将数据直接写入数据库我估计mysql还是够呛,可以将上传上来的数据先记录到文件,然后。后台在跑个进程,不停的对文件的数据入库。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP