liaoboda 发表于 2008-09-04 18:04

有关存储一些问题的开放讨论

今天有几个计算所的学生来我们这里找课题,正好这几天我和几个朋友在讨论一些有关现在存储的问题。由于我这里资源比较好(几百台机器,而且和各个厂商关系也不错,要几台测试的机器还是没问题的),我也一直想把其中的一些问题搞清楚。我觉得采取我做实验,然后公布结果,大家讨论,我再做实验证明。(在这个过程中,我会把一些实验的结果发给我的朋友和各个厂家,比如intel promise希捷一些并行文件系统的开发者,共同分析)。如果有兴趣请大家多多发表自己的意见。

其实我所做的目的就是一个提高现有存储的读写速度。我现在这里有上P的存储 上P的数据。以后会到10P 20P copy数据和整个数据的处理现在是一个很头疼的问题。如果那几个学生喜欢上CU希望能帮他们选一个真正实用的博士毕业题目。
现在通过以前的实验和长期的实践,我发现了下面几个问题:
1.现在硬盘实际的持续读写速度是有限的,SATAII 标称3G/s的硬盘实际的读写速度上限只有60MB/s。SAS 1.5K实际读写速度也只有100MB/s左右。(目前我的朋友基本都同意这个观点)
根据磁盘的IOPS计算大概也差不多。
2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。
3.其实磁盘阵列的持续读写速度和用NAS SAN 光纤 关系不大。可能基于一般的应用突发读写更多毕竟像我们这么BT的一天产生和处理10来T数据的应用太少了。
4.raid理论速度和实际有差别。raid0 raid5对磁盘速度的提高有限。不是像他们说的那样越多越快
5.现有的并行文件系统对大文件效果很好(8台能到600MB/s),但是对2M左右大量文件的处理能力非常差5MB/s.
6.文件系统inode 块大小 文件的具体关系和对速度的影响。
7.文件数量对速度的影响。
8.对持续大量的读写,好的控制器对速度到底有多大影响。
另外我的朋友有以下的一些观点:
1.raid0能提高速度。
2.大量持续的读写,软raid速度比硬raid好。
3.raid5会比单块盘慢。
4.传输的问题可能存在南桥和硬盘控制器之间。
以上的问题我都会通过实验来一个验证。希望大家多发言

liaoboda 发表于 2008-09-04 19:55

没人顶 自己顶下回去了

happy_fish100 发表于 2008-09-04 22:41

原帖由 liaoboda 于 2008-9-4 19:55 发表 http://bbs.chinaunix.net/images/common/back.gif
没人顶 自己顶下回去了

可以看看分布式文件系统,如:FastDFS

liaoboda 发表于 2008-09-05 08:57

原帖由 happy_fish100 于 2008-9-4 22:41 发表 http://bbs.chinaunix.net/images/common/back.gif


可以看看分布式文件系统,如:FastDFS
我去看看,和lustre一样吗?

liaoboda 发表于 2008-09-05 09:02

我这里是大数据量的HPC

夜的小宇宙 发表于 2008-09-05 09:53

原帖由 liaoboda 于 2008-9-4 18:04 发表 http://bbs.chinaunix.net/images/common/back.gif
今天有几个计算所的学生来我们这里找课题,正好这几天我和几个朋友在讨论一些有关现在存储的问题。由于我这里资源比较好(几百台机器,而且和各个厂商关系也不错,要几台测试的机器还是没问题的),我也一直想把 ...

2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。

这一条理论上应该是,数据读取的时候和缓存命中率关系很大,如果能在缓存中读取,就不用去磁盘上寻址读取了,速度当然快不少。但我感觉应该也是更加适用于数据库这种的离散读的情况,和流媒体的那种大文件读取没有太大关系。

甚至我很怀疑离散写的情况下缓存对写入速度的影响有多大,反正都是先往缓存中写入,然后再写入磁盘的,我觉得缓存对写入的影响不会特别大,无论是离散写还是大文件写入

大文件如视频文件的读写我觉得应该和控制器和磁盘通道数量、带宽有很大的关系

[ 本帖最后由 夜的小宇宙 于 2008-9-5 10:09 编辑 ]

liaoboda 发表于 2008-09-05 10:50

原帖由 夜的小宇宙 于 2008-9-5 09:53 发表 http://bbs.chinaunix.net/images/common/back.gif


2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。

这一条理论上应该是,数据读取的时候和缓存命中率关系很大,如果能在缓存中读取,就不用去磁盘上寻址读取了,速度当然快不少。但我感觉应该 ...
因为以前的应用多为数据库,所以售前们总喜欢说我这个产品cache有多大,对速度提升有多快。(比如EMC NETAPP IBM)如果我的这个结论是正确的,那么我会开始怀疑另外一个问题了,为什么说SAN比Nas快,因为SAN的相应速度快,所以多突发离散的数据访问很好。如果持续的数据就是比带宽和硬盘的读写速度了。可能和infinband和10G网络的原理差不多

夜的小宇宙 发表于 2008-09-05 11:23

原帖由 liaoboda 于 2008-9-5 10:50 发表 http://bbs.chinaunix.net/images/common/back.gif

因为以前的应用多为数据库,所以售前们总喜欢说我这个产品cache有多大,对速度提升有多快。(比如EMC NETAPP IBM)如果我的这个结论是正确的,那么我会开始怀疑另外一个问题了,为什么说SAN比Nas快,因为SAN的 ...

NAS和SAN完全没有可比性,一个传输文件,一个是块数据传输,一个侧重响应速度,单秒内的多少次IO(IOPS),一个侧重带宽,单秒内传输多少字节

我觉得可以讨论一下:缓存命中率和什么有关系,未必缓存大命中率就一定好吧

liaoboda 发表于 2008-09-05 11:25

原帖由 夜的小宇宙 于 2008-9-5 11:23 发表 http://bbs.chinaunix.net/images/common/back.gif


NAS和SAN完全没有可比性,一个传输文件,一个是块数据传输,一个侧重响应速度,单秒内的多少次IO(IOPS),一个侧重带宽,单秒内传输多少字节

我觉得可以讨论一下:缓存命中率和什么有关系,未必缓存大命 ...
你说的和我估计的一样。SAN是响应速度?呵呵 你觉得讨论 缓存命中率和什么有关系 你可以设计试验。

wolfheader 发表于 2008-09-05 11:46

原帖由 happy_fish100 于 2008-9-4 22:41 发表 http://bbs.chinaunix.net/images/common/back.gif


可以看看分布式文件系统,如:FastDFS

这个提议太无聊了,我相信你的DFS不能支持庞大的系统,或者说别人也不会用你的dfs,家里人多的话用一下还可以
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 有关存储一些问题的开放讨论