免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: cynthia

话题讨论:大规模高并发下的分布式存储架构设计 [复制链接]

论坛徽章:
0
发表于 2019-05-17 16:58 |显示全部楼层
什么是传统存储
我们一般将传统存储成为物理存储,比如直连存储(个人电脑)、存储域网络(SAN)、网络附加存储(NAS)。他主要用于存储数据,也作为一种灾难管理的方式。在传统存储中,我们使用LAN / WAN将数据存储在计算机或与我们的计算机连接的服务器中。数据信息存储在磁盘中,可以在需要时重新格式化或重新配置,也可以增加磁盘数量以扩大存储限制。
什么是分布式存储
简单来说,就是存储设备分布在不同的地理位置,数据就近存储,将数据分散在多个存储节点上,各个节点通过网络相连,对这些节点的资源进行统一的管理,从而大大缓解带宽压力,同时也解决了传统的本地文件系统在文件大小、文件数量等方面的限制。

论坛徽章:
0
发表于 2019-05-17 17:59 |显示全部楼层
希望DTCC越办越好,希望我可以抽到礼品。

论坛徽章:
0
发表于 2019-05-17 18:02 |显示全部楼层
采用分布式存储系统,最重要的是可靠性!

论坛徽章:
3
2017金鸡报晓
日期:2017-01-10 15:13:2915-16赛季CBA联赛之天津
日期:2019-06-20 14:25:4015-16赛季CBA联赛之天津
日期:2019-08-20 23:06:53
发表于 2019-05-20 00:08 |显示全部楼层
1、为了使分布式存储系统获得更高性能,您会采用哪些措施?
为了使分布式存储系统获得更高性能,需要从硬件和软件两个方面来考量。硬件方面当然是采用性能越优的越好,软件方面则要根据业务逻辑采用合适的分布式协议。

2、分布式存储系统的高并发能力应如何实现?
说起来很简单,就是“分”。如何“分”,简单的说就是把不同的业务分拆到不同的服务器上去跑(垂直拆分),相同的业务压力分拆到不同的服务器去跑(水平拆分),并时刻不要忘记备份、扩展、意外处理等讨厌的问题。说起来都比较简单,但设计和实现起来,就会比较困难。

3、使存储系统获得更高网络带宽的方法有哪些?
由于不同业务系统对存储的性能要求不同,一般小文件(小于1MB)读写型的系统中对IO的要求较高,大文件的读写型系统对存储设备带宽的要求比较高。不用应用模式下系统对存储设备的要求不同,瓶颈点出现的位置和特点也不一样。带宽与所配置的磁盘个数也有一定关系,一般会通过增加磁盘数量、增加扩展柜数量、跨扩展柜创建RAID组、增加主机通道数量等方式最大限度地利用存储控制器前端和后端的总可用带宽,使得磁盘、磁盘通道、主机通道等的总带宽大于控制器的总带宽,这样在工作站访问时存储设备时,才能最大地发挥出控制器的带宽性能。

4、怎样在控制总体成本的情况下,合理地为海量数据提供存储空间,并能满足数据量快速增长的需求?
鱼与熊掌不可兼得,既要合理又要满足快速增长需求,还要控制总成本,如果有这样的方案的话,估计会很受欢迎。

5、真正可靠的数据保护往往需要一套复杂的策略,实现多级数据保护与容灾,这需要分布式存储系统具备哪些功能?
一般使用多幅本技术来提高存储系统的可靠性,也就是数据需要有冗余,比较经典的做法是 3 副本,并且在磁盘损坏时及早修复丢失的数据,以避免所有的副本损坏造成数据丢失。

6、海量非结构化场景下,应用类型、数据类型复杂,为获得高效便捷的数据管理功能,需要在哪些方面做好准备?
从业务层面出发,考虑实际的需求。比如你所处的企业如果数据量很大,则需要在IT架构上做准备,考虑包括数据是怎么收集的、从哪里收集、如何与其他数据进行匹配等问题。而在操作过程中,则可以首先尝试一些开源的工具进行小范围测试,做一些基本了解,然后再找相关的专家仔细进行评估。

7、针对海量非结构化数据场景,您认为分布式存储系统的设计与建设还应关注什么?如何实现?(可选回答)
1)数据的分布方式
·hash分布
·按数据范围分布
·按数据量分布
·一致性哈希

2)副本的保存方式
·以机器为单位
·以数据段为单位

3)副本的控制
·中心化的副本控制
·去中心化,个副本之间没有中心控制

4)节点状态监控
·heartbeat
·lease机制

论坛徽章:
12
CU大牛徽章
日期:2013-04-17 11:20:3615-16赛季CBA联赛之福建
日期:2017-03-13 11:33:442017金鸡报晓
日期:2017-02-08 10:39:422017金鸡报晓
日期:2017-01-10 15:13:29IT运维版块每日发帖之星
日期:2016-03-15 06:20:01IT运维版块每日发帖之星
日期:2015-10-02 06:20:00CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-09-18 15:15:45CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-04-17 11:46:39CU大牛徽章
日期:2013-04-17 11:46:2815-16赛季CBA联赛之吉林
日期:2017-05-25 16:45:47
发表于 2019-05-20 09:22 |显示全部楼层
1、 为了使分布式存储系统获得更高性能,您会采用哪些措施?
其实分布式存储和分布式数据库类似,获得更高的性能需要尽量消除单点瓶颈,这些瓶颈是由于单点IO性能上限带来的,一般合理的方案也就和分布式数据库类似,进行合理的文件分库,分库的方案很多,简单的基于文件名分库,或者根据其他特征值分库,从而尽量的把文件内容均匀的进行分布部署,以尽量减少单点瓶颈影响。在这个过程中还需要注意因为分库带来的管理复杂度增加产生的新问题。

2、分布式存储系统的高并发能力应如何实现?
其实这个问题和上面的问题也是相关联的,高并发在排除了网络本身限制后,就体现在IO数据读写限制上,提升无非两个途径,尽量提高单机IO性能和尽量把IO分布开。其中提升单机IO性能就是拼硬件,而尽量把IO分布开就是拼算法,这个要和分库结合起来实施。

3、使存储系统获得更高网络带宽的方法有哪些?
对主干网络,这个没有其他方法,只能随着技术的发展,尽量提高硬件性能,对于节点来说可以采用多口绑定的形式提高单个节点的带宽到超过单个网口性能极限的层度,但这样的技术也不是随时都是那么好用。

4、  怎样在控制总体成本的情况下,合理地为海量数据提供存储空间,并能满足数据量快速增长的需求?
这个其实没有什么统一的方法,可能最多有一些原则性的东西,比如核心网络组件的可用性、稳定性考虑以及对未来预期的处理,尽量变为可横向扩展的,以满足今后的扩充。对存储节点的添加也是类似,考虑为能方便的进行横向扩展(分库机制的合理设计)

5、  真正可靠的数据保护往往需要一套复杂的策略,实现多级数据保护与容灾,这需要分布式存储系统具备哪些功能?
这个其实不同的系统有不同的命名(术语)体系,大致的功能为:
对 主控服务来说,有 命名空间的维护、数据服务器(节点、结点)管理、服务调度、主备(主)容灾 等等功能
对 数据服务器(结点、节点)来说,有 数据本地存储、状态维护、副本管理 等等
对 客户端来说,有 接口、缓存 等等

6、  海量非结构化场景下,应用类型、数据类型复杂,为获得高效便捷的数据管理功能,需要在哪些方面做好准备?
其实尽量的结构化数据就是一种有效的策略,这个可以分类进行,虽然全库是呈现非结构化、异构化的,但对具体的数据应用来说,可以是结构化的。这样对具体应用来说数据管理就更便捷。当然,这个也是需要分层进行,对关键、常用任务进行类似处理准备,对偶发的则不一定。

7、  针对海量非结构化数据场景,您认为分布式存储系统的设计与建设还应关注什么?如何实现?(可选回答)
我觉得分库调度算法的研究和建设还是重点,具体的实现还依据相应研究实施。

论坛徽章:
0
发表于 2019-05-20 10:38 |显示全部楼层
海量非结构化场景下,应用类型、数据类型复杂,为获得高效便捷的数据管理功能,需要在哪些方面做好准备?
工具是最重要的。虽然市面上各种管理软件很多,但往往有其侧重点和应用领域,无法自如地管理各种数据信息——除了Excel,但Excel也有它的缺点,它毕竟不是一个管理系统。好在,近来发现了一个好东东,叫蓝点通用管理系统,它可以由用户方便地自定义数据管理功能,灵活而不失简约,堪称数据管理的神器。实际上,它还不止数据管理的应用,自定义工作流也是它的强项。

论坛徽章:
0
发表于 2019-05-20 10:53 |显示全部楼层
实现多级数据保护与容灾,这需要分布式存储系统具备哪些功能?
数据容灾快照技术可保留1000个历史时间点,连续数据保护技术可记录一段时间内的所有IO变化,提供任意个时间点的历史数据。在病毒感染、逻辑错误,数据丢失等等情况发生的时候,可以使用飞康的历史数据将数据恢复到前一个快照、前一秒、甚至灾难发生前一个IO的状态!图形化界面提供保证数据分析与快速恢复,做到数据接近零丢失。飞康CDP,NSS和FreeStor都包含了相同的连续数据保护和容灾技术,这项技术提供了全面的保护功能,如镜像、快照、录像、远程复制,及自动化容灾与双活,卓越地将文件、数据库和计算环境实现实时备份与瞬间恢复;提供了随时随地不影响生产与容灾系统正常运行的容灾演练能力;并且使本地数据备份、生产存储单点保护、异地数据容灾与双活,三大功能全面整合。无论异构环境中的业务和系统平台如何复杂,均可轻松实现最高水平的数据保护和容灾,保证业务的高可用性。

论坛徽章:
0
发表于 2019-05-20 11:04 |显示全部楼层
近些年分布式系统领域都在做些什么?

论坛徽章:
0
发表于 2019-05-20 11:16 |显示全部楼层
实现多级数据保护与容灾.如何让容灾系统发挥最大作用?
初期投资的项目实施只是容灾的开始阶段,想要让容灾系统真正发挥作用,不断的演练、检验、优化和扩展升级都是必须的

论坛徽章:
0
发表于 2019-05-20 11:27 |显示全部楼层
实现多级数据保护与容灾,这需要分布式存储系统具备哪些功能?
容灾基本上分业务层容灾1,负载均衡层面做到的7层或4层容灾。2,数据存储层面做到的 google spanner , casandra等3,基于分布式系统集群实现的业务模块分离多云多机房冷热容灾.比如利用k8s,mesos实现的跨云dcos构建。4,通过中间件RPC + 单独网络通道实现的热热容灾(多机房,混合云,多个公有云)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,7折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时七折期:2019年8月31日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP