1 ... 11 12 13 141516 17 18 19 ... 26 / 26 页下一页

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5-28） [复制链接]

方兆国

大富大贵

论坛徽章:: 19

141楼 [报告]

发表于 2012-05-16 20:16 |只看该作者

回复 113# bbjmmj

招数学和计算机双学位的

您想让本科读几年……这个出来，人不就废了么……

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

方兆国

大富大贵

论坛徽章:: 19

142楼 [报告]

发表于 2012-05-16 20:19 |只看该作者

回复 102# kns1024wh

你也看过有些关于数据库的书中关于沃尔玛的例子？第一眼看到你的帖子，感觉好眼熟

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pl_piaoling

富足长乐

论坛徽章:: 0

143楼 [报告]

发表于 2012-05-16 22:19 |只看该作者

我目前正在做一个关于hadoop的一个项目，使用了hadoop ,hbase ,hive
开发环境目前使用centos6来搭建
未来生产环境使用suse，规模前期大概有20－30台PC服务器
数据量每天不到200G，存储3－6月数据，主要用于对交易的分析，通过提供交易报文查询以及分析结果，辅助用户对
现有系统的改造，整个系统还在建设当中。
对于优化，感觉优化的地方比较多，比如对于M/R，可以调整内存，mapper的压缩输出，对于reduce的多文件输出，hashParition定制，大部分都是调整mapred-site.xml配置参数，还有就是要考虑关于io方面的配置
对于hdfs，可以调整blocksize,io相关的buffersize ,.checksum等的大小，每块参数都比较多，其实说的再多，都比上自己实践，只有测试才能感觉调整参数确实是有意义的，感觉到变化。
感觉对于hadoop，hbase的调优，参数太多，
除了调整，还要做大量的测试，而且对于测试环境与生产的环境都做严格测试

好像国内用的还比较少，互联网偏多一些，企业应用的场景很少

还有就是目前hadoop的版本跟其它（hbase,hive等）兼容性不是很好，如果省事的话，可以直接用cloudera发行版本，它在兼容性做了很多工作，同时也修复了不少BUG。

总体感觉，研究、学习与使用hadoop，要做的工作真是太多了，除了学习怎么用，还要看看源码，对它有深入的了解，希望不久能出现很多hadoop人才在行业内流动:wink:

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pl_piaoling

富足长乐

论坛徽章:: 0

144楼 [报告]

发表于 2012-05-16 22:40 |只看该作者

我看作者写的这本书对《avatarnode》写了不少内容
其实，我倒觉得，不如对现在Hadoop自已的HA多介绍一些，我知道Hadoop自己的HA也是最近刚出来不久，但avatarnode用的局限性实在不少
其它的HA方案，感觉真是没有必要花太大精力去研究，除非你的应用是7*24小时不间断的，一般都是做后台分析用的，而且一般Namenode的挂的机率也
非常小，我觉得不行的话，可以搞了外置盘，通过zookeeper做个冷备就行了
还有就是单讲hdfs，是不是内容局限性有点大了，必毕单用hdfs这一个东西是玩不转应用，还是借助hbase,hive等建一个分析系统，呵呵，纯属个人意见，
不喜勿怪呀，不过这个东西涉及的东东也太多了，想一本讲得全而且深入的太困难了。
不过作者里面做了很多实验（看目录），这都是实践经验呀，免得大家以后再走弯路。支持一下

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kns1024wh

广告杀手

论坛徽章:: 0

145楼 [报告]

发表于 2012-05-16 22:45 |只看该作者

回复 145# pl_piaoling

国内的hadoop应用确实如此，关于hadoop的开发架构还是有很多探讨的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

146楼 [报告]

发表于 2012-05-17 00:09 |只看该作者

pl_piaoling 发表于 2012-05-16 22:40
我看作者写的这本书对《avatarnode》写了不少内容
其实，我倒觉得，不如对现在Hadoop自已的HA多介绍一些， ...

一起研究

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kns1024wh

广告杀手

论坛徽章:: 0

147楼 [报告]

发表于 2012-05-17 11:15 |只看该作者

回复 148# Gray1982

还是多多交流互通有无

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

148楼 [报告]

发表于 2012-05-17 15:40 |只看该作者

回复 145# pl_piaoling

源码我就不多说了，JAVA的东西我最多也就是看看
其实对于优化，在硬件级的采购，系统平台的优化，然后才是软件级的优化
MR的使用的数量，各种压缩的设置，各种IO的设置，本地处理还是远程处理等
至于块大小，各种缓存级应用就是根据实际情况改了。其实有个环境去做测试还是很不错的
你那边用hbase效果怎么样？redis在你那边测试过不