免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 113678 | 回复: 224

[RAID与磁盘阵列] 有关存储一些问题的开放讨论 [复制链接]

论坛徽章:
0
发表于 2008-09-04 18:04 |显示全部楼层
今天有几个计算所的学生来我们这里找课题,正好这几天我和几个朋友在讨论一些有关现在存储的问题。由于我这里资源比较好(几百台机器,而且和各个厂商关系也不错,要几台测试的机器还是没问题的),我也一直想把其中的一些问题搞清楚。我觉得采取我做实验,然后公布结果,大家讨论,我再做实验证明。(在这个过程中,我会把一些实验的结果发给我的朋友和各个厂家,比如intel promise  希捷  一些并行文件系统的开发者,共同分析)。如果有兴趣请大家多多发表自己的意见。

其实我所做的目的就是一个提高现有存储的读写速度。我现在这里有上P的存储 上P的数据。以后会到10P 20P copy数据和整个数据的处理现在是一个很头疼的问题。如果那几个学生喜欢上CU希望能帮他们选一个真正实用的博士毕业题目。
现在通过以前的实验和长期的实践,我发现了下面几个问题:
1.现在硬盘实际的持续读写速度是有限的,SATAII 标称3G/s的硬盘实际的读写速度上限只有60MB/s。SAS 1.5K实际读写速度也只有100MB/s左右。(目前我的朋友基本都同意这个观点)
根据磁盘的IOPS计算大概也差不多。
2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。
3.其实磁盘阵列的持续读写速度和用NAS SAN 光纤 关系不大。可能基于一般的应用突发读写更多毕竟像我们这么BT的一天产生和处理10来T数据的应用太少了。
4.raid理论速度和实际有差别。raid0 raid5对磁盘速度的提高有限。不是像他们说的那样越多越快
5.现有的并行文件系统对大文件效果很好(8台能到600MB/s),但是对2M左右大量文件的处理能力非常差5MB/s.
6.文件系统inode 块大小 文件的具体关系和对速度的影响。
7.文件数量对速度的影响。
8.对持续大量的读写,好的控制器对速度到底有多大影响。
另外我的朋友有以下的一些观点:
1.raid0能提高速度。
2.大量持续的读写,软raid速度比硬raid好。
3.raid5会比单块盘慢。
4.传输的问题可能存在南桥和硬盘控制器之间。
以上的问题我都会通过实验来一个验证。希望大家多发言

论坛徽章:
0
发表于 2008-09-04 19:55 |显示全部楼层
没人顶 自己顶下回去了

论坛徽章:
4
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11IT运维版块每日发帖之星
日期:2016-08-11 06:20:00IT运维版块每日发帖之星
日期:2016-08-15 06:20:00
发表于 2008-09-04 22:41 |显示全部楼层
原帖由 liaoboda 于 2008-9-4 19:55 发表
没人顶 自己顶下回去了


可以看看分布式文件系统,如:FastDFS

论坛徽章:
0
发表于 2008-09-05 08:57 |显示全部楼层
原帖由 happy_fish100 于 2008-9-4 22:41 发表


可以看看分布式文件系统,如:FastDFS

我去看看,和lustre一样吗?

论坛徽章:
0
发表于 2008-09-05 09:02 |显示全部楼层
我这里是大数据量的HPC

论坛徽章:
0
发表于 2008-09-05 09:53 |显示全部楼层
原帖由 liaoboda 于 2008-9-4 18:04 发表
今天有几个计算所的学生来我们这里找课题,正好这几天我和几个朋友在讨论一些有关现在存储的问题。由于我这里资源比较好(几百台机器,而且和各个厂商关系也不错,要几台测试的机器还是没问题的),我也一直想把 ...


2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。

这一条理论上应该是,数据读取的时候和缓存命中率关系很大,如果能在缓存中读取,就不用去磁盘上寻址读取了,速度当然快不少。但我感觉应该也是更加适用于数据库这种的离散读的情况,和流媒体的那种大文件读取没有太大关系。

甚至我很怀疑离散写的情况下缓存对写入速度的影响有多大,反正都是先往缓存中写入,然后再写入磁盘的,我觉得缓存对写入的影响不会特别大,无论是离散写还是大文件写入

大文件如视频文件的读写我觉得应该和控制器和磁盘通道数量、带宽有很大的关系

[ 本帖最后由 夜的小宇宙 于 2008-9-5 10:09 编辑 ]

论坛徽章:
0
发表于 2008-09-05 10:50 |显示全部楼层
原帖由 夜的小宇宙 于 2008-9-5 09:53 发表


2.磁盘的cache 大小对突发读写有效果,对持续的读写基本没用。

这一条理论上应该是,数据读取的时候和缓存命中率关系很大,如果能在缓存中读取,就不用去磁盘上寻址读取了,速度当然快不少。但我感觉应该 ...

因为以前的应用多为数据库,所以售前们总喜欢说我这个产品cache有多大,对速度提升有多快。(比如EMC NETAPP IBM)如果我的这个结论是正确的,那么我会开始怀疑另外一个问题了,为什么说SAN比Nas快,因为SAN的相应速度快,所以多突发离散的数据访问很好。如果持续的数据就是比带宽和硬盘的读写速度了。可能和infinband和10G网络的原理差不多

论坛徽章:
0
发表于 2008-09-05 11:23 |显示全部楼层
原帖由 liaoboda 于 2008-9-5 10:50 发表

因为以前的应用多为数据库,所以售前们总喜欢说我这个产品cache有多大,对速度提升有多快。(比如EMC NETAPP IBM)如果我的这个结论是正确的,那么我会开始怀疑另外一个问题了,为什么说SAN比Nas快,因为SAN的 ...


NAS和SAN完全没有可比性,一个传输文件,一个是块数据传输,一个侧重响应速度,单秒内的多少次IO(IOPS),一个侧重带宽,单秒内传输多少字节

我觉得可以讨论一下:缓存命中率和什么有关系,未必缓存大命中率就一定好吧

论坛徽章:
0
发表于 2008-09-05 11:25 |显示全部楼层
原帖由 夜的小宇宙 于 2008-9-5 11:23 发表


NAS和SAN完全没有可比性,一个传输文件,一个是块数据传输,一个侧重响应速度,单秒内的多少次IO(IOPS),一个侧重带宽,单秒内传输多少字节

我觉得可以讨论一下:缓存命中率和什么有关系,未必缓存大命 ...

你说的和我估计的一样。SAN是响应速度?呵呵 你觉得讨论 缓存命中率和什么有关系 你可以设计试验。

论坛徽章:
0
发表于 2008-09-05 11:46 |显示全部楼层
原帖由 happy_fish100 于 2008-9-4 22:41 发表


可以看看分布式文件系统,如:FastDFS


这个提议太无聊了,我相信你的DFS不能支持庞大的系统,或者说别人也不会用你的dfs,家里人多的话用一下还可以
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP