shang2010 发表于 2013-03-04 16:13

回复 9# T-Bagwell


    现在硬盘都是t字级别,基本用到的机会不多见


贵司什么业务??

zhaopingzi 发表于 2013-03-04 17:50

我司正在测试Lustre文件系统

T-Bagwell 发表于 2013-03-04 18:25

回复 11# shang2010


    比如存储一些高清视频资源
    比如安防方面的,交通监控,上PB是很轻松的事……

mz198424 发表于 2013-03-04 20:23

就用过NFS
访问共享文件很方便。。。
其他的没用过,所以无法比较。。。:em17:

brucejin 发表于 2013-03-05 09:35

同管理员所述,分布式文件系统在高存储量,高性价比上有非常大的优势。
最初的网络文件存储需求,绝大多数都使用了NFS。NFS的优点非常明显:简单,易维护,在低吞吐,低并发的情况下,运行稳定。理论上NFSv4比NFSv3性能提升明显,支持更多的并发,需要谨慎尝试。NFS最大的缺点,是单点故障,带来成本的上升。
中期,就依赖各种存储硬件系统堆叠,SAN,NSA,iSCSI技术的运用,或面向文件,或面向块设备,提供更好的可用性,更高的性能。缺点是随着存储容量的增大而成本上升,在大规模数据爆发初期,大多选择此类。
随着对成本越来越关注,现今最好的解决方案是分布式文件系统。内部进行高可用,备份,同步,监控,负载均衡。我们现在大规模的在应用层使用FastDFS。分布式文件系统也有遗憾,大多需要开发支持,不如NFS,存储那样使用简单。
以上,是我个人的简单心得。

xike2002 发表于 2013-03-05 11:30

接触过Hadoop 分布式文件系统HDFS

Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务。

随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。

HDFS 通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。HDFS 可以提供以下特性:

• 可自我修复的分布式文件存储系统

• 高可扩展性,无需停机动态扩容

• 高可靠性,数据自动检测和复制

• 高吞吐量访问,消除访问瓶颈

• 使用低成本存储和服务器构建

分布式文件系统 HDFS 特性

高吞吐量访问

HDFS 的每个数据块分布在不同机架的一组服务器之上,在用户访问时,HDFS 将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问,而不是从单数据源读取,HDFS 对于单数据块的访问将是传统存储方案的数倍。

对于一个较大的文件,HDFS 将文件的不同部分存放于不同服务器之上。在访问大型文件时,系统可以并行从服务器阵列中的多个服务器并行读入,增加了大文件读入的访问带宽。

通过以上实现,HDFS 通过分布式计算的算法,将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上,单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破,提供了极高的数据吞吐量。



无缝容量扩充

HDFS 将文件的数据块分配信息存放在NameNode 服务器之上,文件数据块的信息分布地存放在 DataNode 服务器上。当整个系统容量需要扩充时,只需要增加DataNode 的数量,系统会自动地实时将新的服务器匹配进整体阵列之中。之后,文件的分布算法会将数据块搬迁到新的DataNode 之中,不需任何系统宕机维护或人工干预。通过以上实现,HDFS 可以做到在不停止服务的情况下实时地加入新的服务器作为分布式文件系统的容量升级,不需要人工干预文件的重新分布。

高度容错

HDFS 文件系统假设系统故障(服务器、网络、存储故障等)是常态,而不是异常。因此通过多方面保证数据的可靠性。数据在写入时被复制多份,并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据的校验,一旦发现数据校验错误将重新进行复制;HDFS 系统在后台自动连续的检测数据的一致性,并维持数据的副本数量在指定的复制水平上。

happy_fish100 发表于 2013-03-05 11:35

回复 16# xike2002

HDFS更适合做离线存储,比如分布式计算场合。
HDFS的name server目前还是单点,是明显的系统瓶颈,不能支持太多的文件数,比如上亿个文件,HDFS基本就不行了。

yuanzh78 发表于 2013-03-05 16:28

原来NFS也属于分布式的,以前硬件调试时从主机上load操作系统用
最近云概念很热,当然少不了分布式,个人学习了一下,原来弄个分布式并不等于云,但是国内很多公司就是凑热闹,
用的最多的就是开源hadoop了,非要搞这个,
开始我是选的fast DFS入手的,简单易用,适用于小文件,安装也方便,接口也清楚,对付一下也足够了,但是这种面子工程还是要用
hadoop,说出来人家ibm用的也是这,只好改成hadoop的,也就是拿来安装上调调接口就算是用上了。
hadoop是什么上上楼的hadoop白皮书都说明白了
Lustre没用过,觉得这种国内还是用的少吧,国内高端少。

主题列举的各种分布式文件系统都有自己的不同用途,所以才会开发出各种系统以适用于不同环境。
比如fastDFS优点就是小文件速度快,那就是HDFS的瓶颈,NFS就适用于网络共享。
Lustre则在大规模集群的存储架构上应用有优势。

最后个人认为云概念就是一个阴谋,下一个中国互联网泡沫就在这里

wcjzgh 发表于 2013-03-05 17:24

lustre 在处理大文件还可以,但如果一旦遇到小文件,她的处理将会超级差,甚至低于传统的nfs.
但这个得看应用,根据不同的应用上合适的文件系统,才是最佳选择。

nanqingzhe 发表于 2013-03-05 17:55

NFS目前用的还是很多的,连FAT32都有还在用的
页: 1 [2] 3 4 5 6 7
查看完整版本: 互联网技术热点之--分布式文件系统,Lustre路在何方?(获奖名单已公布2013-4-7)