Chinaunix

标题: Mapreducer 的一些性能问题优化 [打印本页]

作者: wang290    时间: 2013-08-20 13:50
标题: Mapreducer 的一些性能问题优化
可能遇到的性能问题做点笔记:
1.Map逻辑处理后数据被展开,写磁盘次数剧增,可以观察日志中的spill次数,调整各个参数

2.中间结果能不展开就不展开,尽量缩小Mapper和reducer之间的数据传递

3.distributecache中加载的数据能不用hashmap就尽量不要用,hashmap会使得内存占用量是原数据的5-10倍,其中
引用占了大量空间

4.distributecache中加载的数据要尽可能简单,如果有复杂的处理逻辑可以单独开辟Mapper Reducer进行一轮处理,
避免每次mapper都要处理一遍,尽可能减少distributecache的数据量

5.观察GC的情况,有时候是因为内存占用量高,频繁GC,严重影响处理速度

6.当逻辑本身很简单,但是处理速度很慢时候首先要怀疑Mapper和Reducer之间传输数据量过大,其次是GC情况

7.适当控制mapper的数量,特别是有distributecache的场景




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2