Chinaunix

标题: 本版最火!各路高手请多指点集中数据处理的设计问题! [打印本页]

作者: zhangsuozhu    时间: 2011-07-18 12:04
标题: 本版最火!各路高手请多指点集中数据处理的设计问题!
1、系统由一个或多个数据处理中心及许多名为探针的设备构成。
2、探针设备负责采集数据,并对数据进行简单的处理。然后上传(或同步)数据到数据中心。(探针目前使用的是X86工控机,而且想关程序设计已经基本完成)
3、数据中心负责将探针设备上传来的数据存入数据库中。
4、数据中心负责向用户提供GUI接口。方便用户对数据的查询、统计、分类等操作。
5、探针设备每秒约处理数据2000~4000条。平均每条记录大小约512字节。
6、目前探针的数据保存使用mysql数据库。

7、数据中心所能管理的探针数未确定,因为经验不足,我无法得知,总之越多越好。
8、数据中心所用数据库未确定。肯定的是我们只能提供使用开源数据库,而且稳定性也很重要。



现求各路高手讨论出一个计设方案,或提供一些我考虑的重点:


现在我主要的问题是:

1、数据库中心使用什么数据库,如果处理大数据量(TB级, 百亿条记录)。mysql是否可以?
2、探针与数据中心同步问题。约多长时间同步一次。如果保正容错性及高性能?
作者: wujiajia    时间: 2011-07-18 13:01
有点像数据仓库的样子啊。一天采集一次,数据仓库中自能看到钱一天的数据,使用拉链法做成历史记录。
作者: 落英飘风香    时间: 2011-07-18 14:41
学习下经验,楼上的解答很好- -
作者: zhangsuozhu    时间: 2011-07-18 18:22
有无这样的开源项目,做的比较成功的呢? 我来参考一下!
作者: zhangsuozhu    时间: 2011-07-18 18:27
一天采集一次周期太长了。

1、用户可能无法接受今天看昨天的数据。
2、探针大约每秒2000条。每条512字节,一天的数据量,集中在某一时间段上传,同时多个探针上传,会不会数据量太大呢?
作者: peidright    时间: 2011-07-18 20:50
多个mysql 做ha,拆。

hbase or other nosql
作者: peidright    时间: 2011-07-18 20:51
多个mysql 做ha,拆。

hbase or other nosql
作者: xiboboy123    时间: 2011-07-19 09:02
你的数据量每秒钟为: 512bytes * 3000(平均) = 1536000bytes = 1500Kbytes = 1.46M/s
一般的百兆网卡也才 12.5Mbytes/s。这个数据量算起来还是有点大。如果直接是在公网上传输,
毕竟你的探针设备连接到公网上的线路情况我不了解。故我强烈建议在探针设备上对数据进行压缩。
然后在传送到服务器端,在做入库处理。压缩算法我建议你选snaapy 或者quicklz都成,看你的
数据格式了。
对于服务器端怎么入库?目前看你使用的是mysql,由于产生的数据量很大,故必须对数据库的入库
做一些分表处理,比如。一个探针设备的数据建立一张表(你的探针设备应该有相应的唯一id),等等。
这个你目前的得具体逻辑不大清楚,我也不好评论。
作者: xiboboy123    时间: 2011-07-19 09:05
另外,你的数据量很大,入库的时候有大量的插入操作,这个可能直接将数据直接写入数据库我估计mysql还是够呛,可以将上传上来的数据先记录到文件,然后。后台在跑个进程,不停的对文件的数据入库。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2