免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 30457 | 回复: 29

走进架构新思维--分布式文件系统应如何设计 [复制链接]

论坛徽章:
71
15-16赛季CBA联赛之佛山
日期:2019-09-24 19:46:4815-16赛季CBA联赛之广夏
日期:2016-07-10 09:04:02数据库技术版块每日发帖之星
日期:2016-07-09 06:20:00操作系统版块每日发帖之星
日期:2016-07-09 06:20:00数据库技术版块每日发帖之星
日期:2016-07-07 06:20:00操作系统版块每日发帖之星
日期:2016-07-07 06:20:00操作系统版块每日发帖之星
日期:2016-07-04 06:20:00数据库技术版块每日发帖之星
日期:2016-07-03 06:20:00操作系统版块每日发帖之星
日期:2016-07-03 06:20:00数据库技术版块每日发帖之星
日期:2016-07-02 06:20:00操作系统版块每日发帖之星
日期:2016-07-02 06:20:00每日论坛发贴之星
日期:2016-07-01 06:20:00
发表于 2015-07-28 16:39 |显示全部楼层
楼主大才,先站楼,抢沙发

论坛徽章:
5
摩羯座
日期:2014-07-22 09:03:552015元宵节徽章
日期:2015-03-06 15:50:392015亚冠之大阪钢巴
日期:2015-06-12 16:01:352015年中国系统架构师大会
日期:2015-06-29 16:11:2815-16赛季CBA联赛之四川
日期:2018-12-17 14:10:21
发表于 2015-07-28 17:15 |显示全部楼层
本帖最后由 T-Bagwell 于 2015-07-28 17:15 编辑

1、异构存储(磁盘、SSD、内存)以及冷温热数据存储架构您觉得如何设计?比如数据热度由热到温最后到冷,对应的存储如何自适应的将数据转换和保存?
目前能够想到的就是冷数据存入机械 SATA 盘,热数据存入 SSD + 内存,如果是非重要的热数据,直接存入内存,比如 Cache,如果是重要的热数据,可存入 SSD,如果对性能要求并不是很高,可以考虑存入 SATA,新写入的数据可以存入 SSD 或者内存,如果热度很低,可以切换至存储到 SATA,不重要的基本上可以直接删掉,根据业务场景设计,不同的业务的需求也不同。

2、有的应用读写并发并不大,而对元数据的操作确异常频繁,如何设计一个以读为主的元数据服务架构或者设计一个以写为主的元数据服务架构?
读写并发不大,对元数据操作频繁这种一般很有可能是小文件,开销主要用在对元数据操作部分了,根据场景不同设计的也不同,一般都是元数据集群,元数据存储在 SSD + 内存做元数据 Cache,跟设计的算法也有关系。

3、当前无论是 CEPH 还是GFS,都存在IO路径过长的问题,有什么方法能缓解这种情况?
Ceph 的性能还不错, GFS 没有用过,不过 Ceph 使用 API 方式性能还不错,但是稳定性确实不太好说,目前我没遇到问题,但是也没商用过,因为我不太喜欢API方式,一般还是 Posix 接口操作,方便,直接 mount 就当本地盘使用了。

4、使用分布式文件系统后,如何快速的检索数据?
最快的方式当然还是 Hash 表,O(1), 也有其他的方式应该,只不过我没有用过,因为我还是比较喜欢 Gluster 这种 Hash 计算文件存储位置的方式,加上一直以来都是做大文件,所以这个并不是太大的问题。

5、云存储的数据分享、隔离和安全性怎么做?
这个主要还是在应用层去做,直接从业务部分去划分好些,如果必须在文件系统层做,可以增加 ACL ,或者根据 UID 进行权限控制,因为 GNU/Linux 本身就有相关的控制设计了

6、你对IT架构的发展前景怎么看?有什么新的想法吗?
目前没什么看法,需要的还是创新,单玩存储也玩不出什么太多的花样了,而且都是跟着开源的改来改去的,要么就是都觉得自己开发出来的好,其实好多也是自 high 的状态

论坛徽章:
8
综合交流区版块每周发帖之星
日期:2015-12-02 15:03:53数据库技术版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每日发帖之星
日期:2015-09-14 06:20:00金牛座
日期:2014-10-10 11:23:34CU十二周年纪念徽章
日期:2013-10-24 15:41:34酉鸡
日期:2013-10-19 10:17:1315-16赛季CBA联赛之北京
日期:2017-03-06 15:12:44
发表于 2015-07-28 17:49 |显示全部楼层
本帖最后由 ruochen 于 2015-07-28 17:53 编辑

数据一般有一下几个划分纬度:
1)数据访问频度:热、温、冷
2)数据安全等级:高、低
3)数据大小量级:大、小

数据安全性要求高且比较热的数据,数据量级中等或者偏小,一般用memory+PCIe SSD的方案来解决,特别是那种随机io比较高的,再配合cache、cdn等方法解决,按成本和重要性也可以将PCIe SSD改为SATA SSD
数据安全性要求高比较冷的数据,数据量级偏大,一般用SATA+本地cache
介入上两种之间的温数据,就看自己色的投入多少成本了,数据的安全性等如何考虑了,数据的冗余分数和重复数据删除等方法都可以用上

队列、CDN、CACHE等方法综合应用特点和成本因素来考虑吧,毕竟每家公司的业务都有一些自己的特殊性在里面

对于大规模的存储应用,创业型互联网应用我偏向无中心的并行扩展架构,这样在用户规模快速增加的时候增加人手和服务器是能抗住的
目前永久留存的的小图片和小语音采用的余总的FastDFS,冗余2份、3份不等
在小随机的GPS数据采集上用的Redis(写cache)+LevelDB(持久化),冗余2份、3份不等

论坛徽章:
17
处女座
日期:2013-08-27 09:59:352015亚冠之柏太阳神
日期:2015-07-30 10:16:402015亚冠之萨济拖拉机
日期:2015-07-29 18:58:182015年亚洲杯之巴勒斯坦
日期:2015-03-06 17:38:17摩羯座
日期:2014-12-11 21:31:34戌狗
日期:2014-07-20 20:57:32子鼠
日期:2014-05-15 16:25:21亥猪
日期:2014-02-11 17:32:05丑牛
日期:2014-01-20 15:45:51丑牛
日期:2013-10-22 11:12:56双子座
日期:2013-10-18 16:28:17白羊座
日期:2013-10-18 10:50:45
发表于 2015-07-28 18:33 |显示全部楼层
1、异构存储(磁盘、SSD、内存)以及冷温热数据存储架构您觉得如何设计?比如数据热度由热到温最后到冷,对应的存储如何自适应的将数据转换和保存?
     数据的冷热与存储介存的访问性能应该是直接对应关系:内存=热,SSD=温,磁盘=冷,在SSD价格不断下滑的情况下磁盘应该在不远的将来被会替换为SSD,最终冷数据的访问应该从硬件层面上得到相关程度的缓解。数据的转移可以假设以下情况:存储介质根据访问情能分为了3个层次,数据的冷热程度分为9个层次(热1-3,温4-5,冷6-9),数据定期的根据冷热系数转移到特定的存储介存,可以增加冷热系数调整转移的缓冲期和频率。
2、有的应用读写并发并不大,而对元数据的操作确异常频繁,如何设计一个以读为主的元数据服务架构或者设计一个以写为主的元数据服务架构?
     大文件和小文件是两个完全不同的问题,小文件常常导致无数据操作频繁,那么元数据服务干脆就分开处理,一个完整的元数据服务架构由分别偏向读写的两个异构的元数据架构组成而成。
3、当前无论是CEPH还是GFS,都存在IO路径过长的问题,有什么方法能缓解这种情况?
     根据最近访问记录缓存路径信息来提供快速访问貌似是比较可行的,但是如何在访问文件时减少内部容器和模块间的信息访问和传递得视具体实现而定了。
4、使用分布式文件系统后,如何快速的检索数据?
     检索数据分为定位和读取两个操作,相对于定位来讲读取是绝对的慢操作,那么在读取时可以合并读取请求,尽可能一次读取服务多个请求。
5、云存储的数据分享、隔离和安全性怎么做?
     分享与安全是个永恒的话题,目前大多数数据安全问题出现在用户端,与访问终端合作定制对用户透明的更严格和复杂的访问规则是一个方向,同时针对数据访问本身应该提时效性处理,每一次外部数据访问都不是可持续的,其时效长度由用户的安全等级决定。
6、你对IT架构的发展前景怎么看?有什么新的想法吗?
     软件的实现一直受限于硬件的能力,所以很难在有效的条件下有颠覆性的创新,随着硬件能力的快速提升和应用规模的急剧扩大,IT架构总会不断变化以适应需求的。

论坛徽章:
36
子鼠
日期:2013-08-28 22:23:29黄金圣斗士
日期:2015-12-01 11:37:51程序设计版块每日发帖之星
日期:2015-12-14 06:20:00CU十四周年纪念徽章
日期:2015-12-22 16:50:40IT运维版块每日发帖之星
日期:2016-01-25 06:20:0015-16赛季CBA联赛之深圳
日期:2016-01-27 10:31:172016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之福建
日期:2016-04-07 11:25:2215-16赛季CBA联赛之青岛
日期:2016-04-29 18:02:5915-16赛季CBA联赛之北控
日期:2016-06-20 17:38:50技术图书徽章
日期:2016-07-19 13:54:03程序设计版块每日发帖之星
日期:2016-08-21 06:20:00
发表于 2015-07-28 16:40 |显示全部楼层
板凳坐上先

论坛徽章:
34
亥猪
日期:2015-03-20 13:55:11戌狗
日期:2015-03-20 13:57:01酉鸡
日期:2015-03-20 14:03:56未羊
日期:2015-03-20 14:18:30子鼠
日期:2015-03-20 14:20:14丑牛
日期:2015-03-20 14:20:31辰龙
日期:2015-03-20 14:35:34巳蛇
日期:2015-03-20 14:35:56操作系统版块每日发帖之星
日期:2015-11-06 06:20:00操作系统版块每日发帖之星
日期:2015-11-08 06:20:00操作系统版块每日发帖之星
日期:2015-11-19 06:20:00黄金圣斗士
日期:2015-11-24 10:43:13
发表于 2015-07-28 16:49 |显示全部楼层
觉得现在成熟产品的架构都不大会动了,云什么新东西都是一些边缘产品。

ps:我要伞

求职 : Linux运维
论坛徽章:
19
CU大牛徽章
日期:2013-03-13 15:15:0815-16赛季CBA联赛之山东
日期:2016-10-31 10:40:10综合交流区版块每日发帖之星
日期:2016-07-06 06:20:00IT运维版块每日发帖之星
日期:2016-02-08 06:20:00数据库技术版块每日发帖之星
日期:2016-01-15 06:20:00IT运维版块每日发帖之星
日期:2016-01-15 06:20:00IT运维版块每日发帖之星
日期:2016-01-10 06:20:00黄金圣斗士
日期:2015-11-24 10:45:10IT运维版块每日发帖之星
日期:2015-09-01 06:20:00IT运维版块每日发帖之星
日期:2015-08-13 06:20:00IT运维版块每日发帖之星
日期:2015-07-30 09:40:012015年亚洲杯之巴勒斯坦
日期:2015-05-05 10:19:03
发表于 2015-07-28 17:02 |显示全部楼层
先顶起来再思考

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-07-28 20:50 |显示全部楼层
当前如果没有新的需求架构基本已经算稳定了,只要将他搞稳定,提高性能就万事大吉
回复 4# vermouth


   

评分

参与人数 1可用积分 +10 收起 理由
vermouth + 10 伞~

查看全部评分

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-07-28 20:50 |显示全部楼层
抛砖引玉
回复 2# cjfeii


   

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2015-07-28 20:56 |显示全部楼层
GlusterFS确实有好的地方,但不好地方是遍历整个目录时比较麻烦并且不支持模糊查询文件名,此外,有一些独特的应用是需要不停的list目录,这种方式GlusterFS就不那么好了,而且中心节点master的这种方式也扛不住
回复 6# T-Bagwell


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2020中国数据库技术大会

【架构革新 高效可控】2020年12月21日-23日第十一届中国数据库技术大会将在北京隆重召开。

大会设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

http://dtcc.it168.com


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP