话题讨论：大规模高并发下的分布式存储架构设计 - 第5页 - CU活动专区 - Chinaunix

lrb1120 发表于 2019-05-20 17:01

为什么我们努力提高网络带宽而不是去想办法压缩文件尤其是视频文件的大小呢？

znsk07 发表于 2019-05-21 13:57

怎样在控制总体成本的情况下，合理地为海量数据提供存储空间，并能满足数据量快速增长的需求？
这个得看企业吧？

sherrywong 发表于 2019-05-21 14:17

如何提升系统的并发能力之水平扩展

daisyplay 发表于 2019-05-21 14:33

如何计算系统用户并发数，系统最大并发数？

xzh1980 发表于 2019-05-21 14:49

开源分布式流存储Pravega前景怎么样？

z_paul 发表于 2019-05-21 15:08

分布式存储按其存储接口分为三种：文件存储、块存储和对象存储?

boss_ch 发表于 2019-05-21 15:27

高并发的分布式系统中订单流程是怎样的？订单与库存关系如何处理？

albertdong 发表于 2019-05-21 15:49

中小企业如何进行高效数据管理？

local0 发表于 2019-05-21 16:09

如何进行多云环境中的数据管理？

blankrabbit 发表于 2019-05-21 16:25

关于高并发
数据同步，跨机房跨集群的困难点在于数据同步，有三种做法：
1）不同步，任由各子集群在自己的业务范围内运行
2）汇总集群，建立一个统一的数据汇总集群（如Hadoop\Spark\Kylin等），将数据汇总到统一的大数据集群中，再进行统计、汇总、运算等。缺点是会有时间差，短须5分钟，长须一天以上
3）远程数据同步，通过开源框架实现多个数据库的同步，例如阿里的otter，底层为canal，模拟mysql的从库，实现日志解析并数据库入库，时间差较短，如果网络没有太大问题，可在秒级完成数据同步。数据同步冲突算法有两种：单向回环补救、时间交集补救。一般推荐使用单向回环补救，即：如果发现数据库A与数据库B的同步时间差大于某个数值，则根据pk查询最新记录同步到数据库中。而另一种算法时间交集补救，是根据“时间交集”的定义，获得双方数据库的“时间交叉的操作”清单，然后根据此清单执行单向回环补救。此方法缺点为：a)开源版本中仅有单向回环补救;b)只支持mysql->mysql同步或者mysql->oracle同步。

页: 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14

Chinaunix's Archiver