- 论坛徽章:
- 0
|
我目前正在做一个关于hadoop的一个项目,使用了hadoop ,hbase ,hive
开发环境目前使用centos6来搭建
未来生产环境使用suse,规模前期大概有20-30台PC服务器
数据量每天不到200G,存储3-6月数据,主要用于对交易的分析,通过提供交易报文查询以及分析结果,辅助用户对
现有系统的改造,整个系统还在建设当中。
对于优化,感觉优化的地方比较多,比如对于M/R,可以调整内存,mapper的压缩输出,对于reduce的多文件输出,hashParition定制,大部分都是调整mapred-site.xml配置参数,还有就是要考虑关于io方面的配置
对于hdfs,可以调整blocksize,io相关的buffersize ,.checksum等的大小,每块参数都比较多,其实说的再多,都比上自己实践,只有测试才能感觉调整参数确实是有意义的,感觉到变化。
感觉对于hadoop,hbase的调优,参数太多,
除了调整,还要做大量的测试,而且对于测试环境与生产的环境都做严格测试
好像国内用的还比较少,互联网偏多一些,企业应用的场景很少
还有就是目前hadoop的版本跟其它(hbase,hive等)兼容性不是很好,如果省事的话,可以直接用cloudera发行版本,它在兼容性做了很多工作,同时也修复了不少BUG。
总体感觉,研究、学习与使用hadoop,要做的工作真是太多了,除了学习怎么用,还要看看源码,对它有深入的了解,希望不久能出现很多hadoop人才在行业内流动:wink: |
|