免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 22259 | 回复: 23
打印 上一主题 下一主题

[HBase] 互联网技术新热点之--Hbase存储空间效率如何提升?(获奖名单已公布-2013-5-22) [复制链接]

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-03-20 10:07 |只看该作者 |倒序浏览
获奖名单已公布,详情请看:http://bbs.chinaunix.net/thread-4082547-1-1.html

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

但是HDFS也存在着一些问题,比如他的存储空间效率问题和对低延迟访问的支持乏力,特别对中小文件的存储中效率不高,一直被不少HDFS的使用者所诟病,如何解决这个问题,各自采用的方式也不一样。


本期话题:
1、如果您已经在使用HDFS,HDFS对中小文件存储效率不高,您是如何解决的?
2、如果您还在对分布式文件系统进行选型,你理想中的分布式文件系统的功能,特别是存储效率这块,有哪些特色?

活动时间:2013年3月19日-3月31日

邀请嘉宾:
金君:英特尔公司全球研发伙伴关系部软件工程师。2007年7月从南京航空航天大学硕士毕业之后加入英特尔公司从事高性能计算和高吞吐计算相关的软件性能优化和开发,帮助客户更好的应用英特尔软硬件技术,金君具有7年的软件性能优化经验,同时对体系结构和操作系统有较深入认识。
刘歧:ChinaUnix论坛嵌入式版版主,现从事互联网网盘业务底层文件系统的开发和维护工作。

本期奖品:
最佳经验分享奖6名,各奖励价值100元的locklock保温水杯一个;
参与讨论的会员,获得社区积分20分

更多参与,更多好礼!

论坛徽章:
6
CU大牛徽章
日期:2013-05-20 10:43:41IT运维版块每日发帖之星
日期:2016-07-29 06:20:00IT运维版块每日发帖之星
日期:2016-01-27 06:20:00CU大牛徽章
日期:2013-05-20 10:44:16CU大牛徽章
日期:2013-05-20 10:44:0615-16赛季CBA联赛之广东
日期:2018-03-09 11:17:08
2 [报告]
发表于 2013-03-20 10:36 |只看该作者
sofa, 关注ing...

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-10-02 06:20:00IT运维版块每月发帖之星
日期:2015-09-11 19:30:52IT运维版块每周发帖之星
日期:2015-09-11 19:20:31IT运维版块每日发帖之星
日期:2015-08-26 06:20:00每日论坛发贴之星
日期:2015-08-20 06:20:00IT运维版块每日发帖之星
日期:2015-08-20 06:20:002015年辞旧岁徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09双子座
日期:2013-12-17 16:44:37辰龙
日期:2013-11-22 15:20:59狮子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
3 [报告]
发表于 2013-03-20 10:49 |只看该作者
1、如果您已经在使用HDFS,HDFS对中小文件存储效率不高,您是如何解决的?
可以用Hadoop自带的一些工具,比如Archive可以高效的将小文件放入HDFS block中。
或者用Sequence File 来将文件map成K/V(K是文件名,V是文件内容)整合成大文件。

2、如果您还在对分布式文件系统进行选型,你理想中的分布式文件系统的功能,特别是存储效率这块,有哪些特色?
理想的文件系统可以满足业务的需要, 提供高可用,还可以为将来的扩展提供一定的基础。这样比较好。比如考虑的因素多数IOPS,delay等。
比如:如果对实时性强,大文件的一些业务。某些文件系统比如NFS,NA就不能满足需求,或者可扩展性不高。
可以考虑HDFS,NDFS。但NDFS的扩展性可能没有HDFS那么高。。没尝试过。。
HDFS一般使用的64MB或者128MB的block结构,跟传统的文件系统block大小不一样。这样可以大大的缩减寻道时间,这样对于读写大文件来说,大大改善了IO的问题。
HDFS还提供冗余的功能,一个block可以有2,3个副本。
如果业务并不要求有大文件的操作的话,那么可以考虑传统的NFS,SAN,NAS.其中SAN比较昂贵。而NAS的传输速率没有SAN那么快,虽然改进的有iscsi技术出现,但毕竟是不通协议的整合,对存储效率有一定改善提高。

论坛徽章:
324
射手座
日期:2013-08-23 12:04:38射手座
日期:2013-08-23 16:18:12未羊
日期:2013-08-30 14:33:15水瓶座
日期:2013-09-02 16:44:31摩羯座
日期:2013-09-25 09:33:52双子座
日期:2013-09-26 12:21:10金牛座
日期:2013-10-14 09:08:49申猴
日期:2013-10-16 13:09:43子鼠
日期:2013-10-17 23:23:19射手座
日期:2013-10-18 13:00:27金牛座
日期:2013-10-18 15:47:57午马
日期:2013-10-18 21:43:38
4 [报告]
发表于 2013-03-20 11:25 |只看该作者
不懂,学习

论坛徽章:
3
天秤座
日期:2014-10-29 11:37:572015元宵节徽章
日期:2015-03-06 15:50:39NBA常规赛纪念章
日期:2015-05-04 22:32:03
5 [报告]
发表于 2013-03-20 13:23 |只看该作者
硬件的故障率太高了。

论坛徽章:
7
摩羯座
日期:2013-12-05 10:42:57辰龙
日期:2013-12-27 13:40:49亥猪
日期:2014-01-15 09:10:37天秤座
日期:2014-01-20 11:22:20辰龙
日期:2014-01-26 17:02:25午马
日期:2014-01-27 14:22:34水瓶座
日期:2014-02-19 09:36:40
6 [报告]
发表于 2013-03-20 16:10 |只看该作者
11年12年的时候项目中用到了hadoop,我参与的就是hdfs那部分,hdfs对小文件读写是真的挺差,特别是写操作本来就慢,当时我们的文件本来就是小文件,到了最后把文件进行了合并。

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
7 [报告]
发表于 2013-03-21 08:14 |只看该作者
本帖最后由 pitonas 于 2013-03-21 01:15 编辑



学习,学习效率如何提升

论坛徽章:
0
8 [报告]
发表于 2013-03-21 09:30 |只看该作者
关注~~~~~~~~~~~

论坛徽章:
0
9 [报告]
发表于 2013-03-21 16:55 |只看该作者
我们对HDFS进行过测试,小文件读写确实很差

论坛徽章:
277
CU大牛徽章
日期:2013-04-17 10:59:39CU大牛徽章
日期:2013-04-17 11:01:45CU大牛徽章
日期:2013-04-17 11:02:15CU大牛徽章
日期:2013-04-17 11:02:36CU大牛徽章
日期:2013-04-17 11:02:58CU大牛徽章
日期:2013-05-20 10:44:54CU大牛徽章
日期:2013-05-20 10:45:13CU大牛徽章
日期:2013-05-20 10:45:24CU大牛徽章
日期:2013-05-20 10:45:31金牛座
日期:2013-09-06 22:11:28巨蟹座
日期:2013-09-06 23:01:04射手座
日期:2013-09-06 23:01:45
10 [报告]
发表于 2013-03-22 13:36 |只看该作者
1、如果您已经在使用HDFS,HDFS对中小文件存储效率不高,您是如何解决的?
hdfs本来是为了大数据吞吐量而设计,dfs.block.size默认64M,可以根据具体文件大小修改对应的dfs.block.size, 存储一般的文件也可以了,就是当成一个多机负载备份系统来用的,对速度要求不是很高的也够用了。实在是要求效率可以有其他的分布式系统选择,毕竟hdfs就是为大文件存储设计的,当然有实力的公司可以选择根据需要自己定制hadoop。

2、如果您还在对分布式文件系统进行选型,你理想中的分布式文件系统的功能,特别是存储效率这块,有哪些特色?
理想中的分布式文件系统最重要是安装简单,配置方便,主节点坏了可以很方便的快速恢复,hdfs的配置和fdfs比起来觉得还是稍微麻烦。
存储效率上大文件和小文件在技术应该是可以做到兼容效率的,在存储和分块上分为大文件区和小文件区,通过配置文件灵活配置。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP