- 论坛徽章:
- 59
|
1、如果您已经在使用HDFS,HDFS对中小文件存储效率不高,您是如何解决的?
可以用Hadoop自带的一些工具,比如Archive可以高效的将小文件放入HDFS block中。
或者用Sequence File 来将文件map成K/V(K是文件名,V是文件内容)整合成大文件。
2、如果您还在对分布式文件系统进行选型,你理想中的分布式文件系统的功能,特别是存储效率这块,有哪些特色?
理想的文件系统可以满足业务的需要, 提供高可用,还可以为将来的扩展提供一定的基础。这样比较好。比如考虑的因素多数IOPS,delay等。
比如:如果对实时性强,大文件的一些业务。某些文件系统比如NFS,NA就不能满足需求,或者可扩展性不高。
可以考虑HDFS,NDFS。但NDFS的扩展性可能没有HDFS那么高。。没尝试过。。
HDFS一般使用的64MB或者128MB的block结构,跟传统的文件系统block大小不一样。这样可以大大的缩减寻道时间,这样对于读写大文件来说,大大改善了IO的问题。
HDFS还提供冗余的功能,一个block可以有2,3个副本。
如果业务并不要求有大文件的操作的话,那么可以考虑传统的NFS,SAN,NAS.其中SAN比较昂贵。而NAS的传输速率没有SAN那么快,虽然改进的有iscsi技术出现,但毕竟是不通协议的整合,对存储效率有一定改善提高。 |
|