免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
19
CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-05-20 10:46:44CU大牛徽章
日期:2013-05-20 10:46:38CU大牛徽章
日期:2013-05-20 10:46:31CU大牛徽章
日期:2013-05-20 10:46:25CU大牛徽章
日期:2013-05-20 10:46:18CU大牛徽章
日期:2013-04-17 11:19:51CU大牛徽章
日期:2013-04-17 11:19:42CU大牛徽章
日期:2013-04-17 11:19:37CU大牛徽章
日期:2013-04-17 11:19:32CU大牛徽章
日期:2013-04-17 11:19:28
141 [报告]
发表于 2012-05-16 20:16 |只看该作者
回复 113# bbjmmj


   
招数学和计算机双学位的

您想让本科读几年……这个出来,人不就废了么……

论坛徽章:
19
CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-05-20 10:46:44CU大牛徽章
日期:2013-05-20 10:46:38CU大牛徽章
日期:2013-05-20 10:46:31CU大牛徽章
日期:2013-05-20 10:46:25CU大牛徽章
日期:2013-05-20 10:46:18CU大牛徽章
日期:2013-04-17 11:19:51CU大牛徽章
日期:2013-04-17 11:19:42CU大牛徽章
日期:2013-04-17 11:19:37CU大牛徽章
日期:2013-04-17 11:19:32CU大牛徽章
日期:2013-04-17 11:19:28
142 [报告]
发表于 2012-05-16 20:19 |只看该作者
回复 102# kns1024wh


    你也看过有些关于数据库的书中关于沃尔玛的例子?第一眼看到你的帖子,感觉好眼熟

论坛徽章:
0
143 [报告]
发表于 2012-05-16 22:19 |只看该作者
我目前正在做一个关于hadoop的一个项目,使用了hadoop ,hbase ,hive
开发环境目前使用centos6来搭建
未来生产环境使用suse,规模前期大概有20-30台PC服务器
数据量每天不到200G,存储3-6月数据,主要用于对交易的分析,通过提供交易报文查询以及分析结果,辅助用户对
现有系统的改造,整个系统还在建设当中。
对于优化,感觉优化的地方比较多,比如对于M/R,可以调整内存,mapper的压缩输出,对于reduce的多文件输出,hashParition定制,大部分都是调整mapred-site.xml配置参数,还有就是要考虑关于io方面的配置
对于hdfs,可以调整blocksize,io相关的buffersize ,.checksum等的大小,每块参数都比较多,其实说的再多,都比上自己实践,只有测试才能感觉调整参数确实是有意义的,感觉到变化。
感觉对于hadoop,hbase的调优,参数太多,
除了调整,还要做大量的测试,而且对于测试环境与生产的环境都做严格测试

好像国内用的还比较少,互联网偏多一些,企业应用的场景很少

还有就是目前hadoop的版本跟其它(hbase,hive等)兼容性不是很好,如果省事的话,可以直接用cloudera发行版本,它在兼容性做了很多工作,同时也修复了不少BUG。

总体感觉,研究、学习与使用hadoop,要做的工作真是太多了,除了学习怎么用,还要看看源码,对它有深入的了解,希望不久能出现很多hadoop人才在行业内流动:wink:

论坛徽章:
0
144 [报告]
发表于 2012-05-16 22:40 |只看该作者
我看作者写的这本书对《avatarnode》写了不少内容
其实,我倒觉得,不如对现在Hadoop自已的HA多介绍一些,我知道Hadoop自己的HA也是最近刚出来不久,但avatarnode用的局限性实在不少
其它的HA方案,感觉真是没有必要花太大精力去研究,除非你的应用是7*24小时不间断的,一般都是做后台分析用的,而且一般Namenode的挂的机率也
非常小,我觉得不行的话,可以搞了外置盘,通过zookeeper做个冷备就行了
还有就是单讲hdfs,是不是内容局限性有点大了,必毕单用hdfs这一个东西是玩不转应用,还是借助hbase,hive等建一个分析系统,呵呵,纯属个人意见,
不喜勿怪呀,不过这个东西涉及的东东也太多了,想一本讲得全而且深入的太困难了。
不过作者里面做了很多实验(看目录),这都是实践经验呀,免得大家以后再走弯路。支持一下

论坛徽章:
0
145 [报告]
发表于 2012-05-16 22:45 |只看该作者
回复 145# pl_piaoling


    国内的hadoop应用确实如此,关于hadoop的开发架构还是有很多探讨的

论坛徽章:
0
146 [报告]
发表于 2012-05-17 00:09 |只看该作者
pl_piaoling 发表于 2012-05-16 22:40
我看作者写的这本书对《avatarnode》写了不少内容
其实,我倒觉得,不如对现在Hadoop自已的HA多介绍一些, ...


一起研究

论坛徽章:
0
147 [报告]
发表于 2012-05-17 11:15 |只看该作者
回复 148# Gray1982


还是多多交流 互通有无

   

论坛徽章:
0
148 [报告]
发表于 2012-05-17 15:40 |只看该作者
回复 145# pl_piaoling


    源码我就不多说了,JAVA的东西我最多也就是看看
其实对于优化,在硬件级的采购,系统平台的优化,然后才是软件级的优化
MR的使用的数量,各种压缩的设置,各种IO的设置,本地处理还是远程处理等
至于块大小,各种缓存级应用就是根据实际情况改了。其实有个环境去做测试还是很不错的
你那边用hbase效果怎么样?redis在你那边测试过不

论坛徽章:
0
149 [报告]
发表于 2012-05-17 15:41 |只看该作者
回复 149# kns1024wh


    嗯,技术都是在交流沟通。公司也应该有这样的企业文化

论坛徽章:
19
CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-05-20 10:46:44CU大牛徽章
日期:2013-05-20 10:46:38CU大牛徽章
日期:2013-05-20 10:46:31CU大牛徽章
日期:2013-05-20 10:46:25CU大牛徽章
日期:2013-05-20 10:46:18CU大牛徽章
日期:2013-04-17 11:19:51CU大牛徽章
日期:2013-04-17 11:19:42CU大牛徽章
日期:2013-04-17 11:19:37CU大牛徽章
日期:2013-04-17 11:19:32CU大牛徽章
日期:2013-04-17 11:19:28
150 [报告]
发表于 2012-05-17 19:09 |只看该作者
回复 150# Gray1982


    嘻嘻,你叫刘鑫吧~

很多书上都说JSP的运行效率很高,但是JSP的网页很少能看到,而且提供虚拟主机的网站都是仅仅区分PHP和ASP.NET,完全忽略JSP,我一直很好奇
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP