12 3 / 3 页下一页

论坛徽章:: 49

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-03-20 10:07 |只看该作者 |倒序浏览

获奖名单已公布，详情请看：http://bbs.chinaunix.net/thread-4082547-1-1.html

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

但是HDFS也存在着一些问题，比如他的存储空间效率问题和对低延迟访问的支持乏力，特别对中小文件的存储中效率不高，一直被不少HDFS的使用者所诟病，如何解决这个问题，各自采用的方式也不一样。

本期话题：
1、如果您已经在使用HDFS，HDFS对中小文件存储效率不高，您是如何解决的？
2、如果您还在对分布式文件系统进行选型，你理想中的分布式文件系统的功能，特别是存储效率这块，有哪些特色？

活动时间：2013年3月19日-3月31日

邀请嘉宾：
金君：英特尔公司全球研发伙伴关系部软件工程师。2007年7月从南京航空航天大学硕士毕业之后加入英特尔公司从事高性能计算和高吞吐计算相关的软件性能优化和开发，帮助客户更好的应用英特尔软硬件技术，金君具有7年的软件性能优化经验，同时对体系结构和操作系统有较深入认识。
刘歧：ChinaUnix论坛嵌入式版版主，现从事互联网网盘业务底层文件系统的开发和维护工作。

本期奖品：
最佳经验分享奖6名，各奖励价值100元的locklock保温水杯一个；
参与讨论的会员，获得社区积分20分

更多参与，更多好礼！

英特尔, hardware, 共同点

craaazy123

稍有积蓄

论坛徽章:: 6

2楼 [报告]

发表于 2013-03-20 10:36 |只看该作者

sofa, 关注ing...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wenhq

大富大贵

论坛徽章:: 16

3楼 [报告]

发表于 2013-03-20 10:49 |只看该作者

1、如果您已经在使用HDFS，HDFS对中小文件存储效率不高，您是如何解决的？
可以用Hadoop自带的一些工具，比如Archive可以高效的将小文件放入HDFS block中。
或者用Sequence File 来将文件map成K/V（K是文件名，V是文件内容)整合成大文件。

2、如果您还在对分布式文件系统进行选型，你理想中的分布式文件系统的功能，特别是存储效率这块，有哪些特色？
理想的文件系统可以满足业务的需要，提供高可用，还可以为将来的扩展提供一定的基础。这样比较好。比如考虑的因素多数IOPS,delay等。
比如：如果对实时性强，大文件的一些业务。某些文件系统比如NFS,NA就不能满足需求，或者可扩展性不高。
可以考虑HDFS,NDFS。但NDFS的扩展性可能没有HDFS那么高。。没尝试过。。
HDFS一般使用的64MB或者128MB的block结构，跟传统的文件系统block大小不一样。这样可以大大的缩减寻道时间，这样对于读写大文件来说，大大改善了IO的问题。
HDFS还提供冗余的功能，一个block可以有2,3个副本。
如果业务并不要求有大文件的操作的话，那么可以考虑传统的NFS,SAN,NAS.其中SAN比较昂贵。而NAS的传输速率没有SAN那么快，虽然改进的有iscsi技术出现，但毕竟是不通协议的整合，对存储效率有一定改善提高。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hellioncu

巨富豪门

论坛徽章:: 324

4楼 [报告]

发表于 2013-03-20 11:25 |只看该作者

不懂，学习

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tomer

小富即安

论坛徽章:: 3

5楼 [报告]

发表于 2013-03-20 13:23 |只看该作者

硬件的故障率太高了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kdkgod

小富即安

论坛徽章:: 7

6楼 [报告]

发表于 2013-03-20 16:10 |只看该作者

11年12年的时候项目中用到了hadoop，我参与的就是hdfs那部分，hdfs对小文件读写是真的挺差，特别是写操作本来就慢，当时我们的文件本来就是小文件，到了最后把文件进行了合并。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

7楼 [报告]

发表于 2013-03-21 08:14 |只看该作者

本帖最后由 pitonas 于 2013-03-21 01:15 编辑

学习，学习效率如何提升

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

frogoscar

家境小康

论坛徽章:: 0

8楼 [报告]

发表于 2013-03-21 09:30 |只看该作者

关注～～～～～～～～～～～

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sc.warlock

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2013-03-21 16:55 |只看该作者

我们对HDFS进行过测试，小文件读写确实很差

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yuanzh78

富可敌国

论坛徽章:: 277

10楼 [报告]

发表于 2013-03-22 13:36 |只看该作者

1、如果您已经在使用HDFS，HDFS对中小文件存储效率不高，您是如何解决的？
hdfs本来是为了大数据吞吐量而设计，dfs.block.size默认64M，可以根据具体文件大小修改对应的dfs.block.size，存储一般的文件也可以了，就是当成一个多机负载备份系统来用的，对速度要求不是很高的也够用了。实在是要求效率可以有其他的分布式系统选择，毕竟hdfs就是为大文件存储设计的，当然有实力的公司可以选择根据需要自己定制hadoop。

2、如果您还在对分布式文件系统进行选型，你理想中的分布式文件系统的功能，特别是存储效率这块，有哪些特色？
理想中的分布式文件系统最重要是安装简单，配置方便，主节点坏了可以很方便的快速恢复，hdfs的配置和fdfs比起来觉得还是稍微麻烦。
存储效率上大文件和小文件在技术应该是可以做到兼容效率的，在存储和分块上分为大文件区和小文件区，通过配置文件灵活配置。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 / 3 页下一页

返回列表

Chinaunix › 论坛 › IT运维 › Hadoop和大数据技术 › 互联网技术新热点之--Hbase存储空间效率如何提升？（获 ...

[HBase] 互联网技术新热点之--Hbase存储空间效率如何提升？（获奖名单已公布-2013-5-22） [复制链接]

浏览过的版块