免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 113922 | 回复: 90
打印 上一主题 下一主题

[RAID与磁盘阵列] 有关存储一些问题的开放讨论 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-09-04 18:04 |显示全部楼层 |倒序浏览
今天有几个计算所的学生来我们这里找课题,正好这几天我和几个朋友在讨论一些有关现在存储的问题。由于我这里资源比较好(几百台机器,而且和各个厂商关系也不错,要几台测试的机器还是没问题的),我也一直想把其中的一些问题搞清楚。我觉得采取我做实验,然后公布结果,大家讨论,我再做实验证明。(在这个过程中,我会把一些实验的结果发给我的朋友和各个厂家,比如intel promise  希捷  一些并行文件系统的开发者,共同分析)。如果有兴趣请大家多多发表自己的意见。

其实我所做的目的就是一个提高现有存储的读写速度。我现在这里有上P的存储 上P的数据。以后会到10P 20P copy数据和整个数据的处理现在是一个很头疼的问题。如果那几个学生喜欢上CU希望能帮他们选一个真正实用的博士毕业题目。
现在通过以前的实验和长期的实践,我发现了下面几个问题:
1.现在硬盘实际的持续读写速度是有限的,SATAII 标称3G/s的硬盘实际的读写速度上限只有60MB/s。SAS 1.5K实际读写速度也只有100MB/s左右。(目前我的朋友基本都同意这个观点)
根据磁盘的IOPS计算大概也差不多。
2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。
3.其实磁盘阵列的持续读写速度和用NAS SAN 光纤 关系不大。可能基于一般的应用突发读写更多毕竟像我们这么BT的一天产生和处理10来T数据的应用太少了。
4.raid理论速度和实际有差别。raid0 raid5对磁盘速度的提高有限。不是像他们说的那样越多越快
5.现有的并行文件系统对大文件效果很好(8台能到600MB/s),但是对2M左右大量文件的处理能力非常差5MB/s.
6.文件系统inode 块大小 文件的具体关系和对速度的影响。
7.文件数量对速度的影响。
8.对持续大量的读写,好的控制器对速度到底有多大影响。
另外我的朋友有以下的一些观点:
1.raid0能提高速度。
2.大量持续的读写,软raid速度比硬raid好。
3.raid5会比单块盘慢。
4.传输的问题可能存在南桥和硬盘控制器之间。
以上的问题我都会通过实验来一个验证。希望大家多发言

论坛徽章:
0
2 [报告]
发表于 2008-09-04 19:55 |显示全部楼层
没人顶 自己顶下回去了

论坛徽章:
0
3 [报告]
发表于 2008-09-05 08:57 |显示全部楼层
原帖由 happy_fish100 于 2008-9-4 22:41 发表


可以看看分布式文件系统,如:FastDFS

我去看看,和lustre一样吗?

论坛徽章:
0
4 [报告]
发表于 2008-09-05 09:02 |显示全部楼层
我这里是大数据量的HPC

论坛徽章:
0
5 [报告]
发表于 2008-09-05 10:50 |显示全部楼层
原帖由 夜的小宇宙 于 2008-9-5 09:53 发表


2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。

这一条理论上应该是,数据读取的时候和缓存命中率关系很大,如果能在缓存中读取,就不用去磁盘上寻址读取了,速度当然快不少。但我感觉应该 ...

因为以前的应用多为数据库,所以售前们总喜欢说我这个产品cache有多大,对速度提升有多快。(比如EMC NETAPP IBM)如果我的这个结论是正确的,那么我会开始怀疑另外一个问题了,为什么说SAN比Nas快,因为SAN的相应速度快,所以多突发离散的数据访问很好。如果持续的数据就是比带宽和硬盘的读写速度了。可能和infinband和10G网络的原理差不多

论坛徽章:
0
6 [报告]
发表于 2008-09-05 11:25 |显示全部楼层
原帖由 夜的小宇宙 于 2008-9-5 11:23 发表


NAS和SAN完全没有可比性,一个传输文件,一个是块数据传输,一个侧重响应速度,单秒内的多少次IO(IOPS),一个侧重带宽,单秒内传输多少字节

我觉得可以讨论一下:缓存命中率和什么有关系,未必缓存大命 ...

你说的和我估计的一样。SAN是响应速度?呵呵 你觉得讨论 缓存命中率和什么有关系 你可以设计试验。

论坛徽章:
0
7 [报告]
发表于 2008-09-05 12:44 |显示全部楼层
原帖由 wolfheader 于 2008-9-5 11:46 发表


这个提议太无聊了,我相信你的DFS不能支持庞大的系统,或者说别人也不会用你的dfs,家里人多的话用一下还可以

昨天我给那些学生提议,建议他们做一个大规模存储的解决方案的课题。不过好像没人感兴趣,一般喜欢研究那些复杂的算法。嘻嘻。
我觉得解决这个问题必须从下边的几个方面共同解决。
1.存储介质的工作原理,必须非常清楚硬盘的结构。如何读写,如何cache.
2.主板上控制器,raid控制器,raid基本原理的一些细节。
3.文件系统,文件系统的工作原理,block inode 文件大小 数目 等 和读写的详细的关系。
4.操作系统对存储的读写与管理
5.大规模并行文件系统。
6.如果这些都解决了就是网络传输和响应的问题。
这些说起来简单,如果真的要扎扎实实的一个一个问题全部搞明白等花很多功夫。开个玩笑绝对够一个PH.d毕业。呵呵

论坛徽章:
0
8 [报告]
发表于 2008-09-05 15:34 |显示全部楼层
lustre 我试过 计算所的蓝鲸我也试验过 lustre的效果还可以 但是对大量2M左右的文件就不行了。

论坛徽章:
0
9 [报告]
发表于 2008-09-05 17:48 |显示全部楼层
我可以试下你那个,不过最近有一点忙。过几天吧

论坛徽章:
0
10 [报告]
发表于 2008-09-06 17:17 |显示全部楼层
原帖由 klin121628 于 2008-9-6 00:15 发表
并行文件系统都是很贵很贵的.........

有两种一中开源的软件lustre 不用钱的。一种带硬件的panasas,这个比较贵
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP