免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
0
171 [报告]
发表于 2012-05-18 22:58 |只看该作者
hbsycw 发表于 2012-05-18 16:16
是啊,大家的认识是一致的。哪个把楼弄歪的MM呢?这个话题是因她而起的~




哈哈,咱还是主要说下优化吧
这个是在以前工作中配置的一部分



Hadoop Job Tuning
Job Tracker Related
dfs.block.size
这个配置项,是决定HDFS文件block数量的多少(也就是文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响name node内存的使用)。
这个配置项定义了在HDFS上每个block的大小,它的值是以字节为单位。可以在配置文件hadoop-site.xml(Hadoop 0.20 以前版本)定义,也可以在JobConf里定义
mapred.map.tasks.speculative.execution=true
mapred.reduce.tasks.speculative.execution=true
这两个是推测执行的配置项,默认值是true
所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务哪个先执行完就把另外一个kill掉,这也是我们经常在Job Tracker页面看到任务执行成功,但是总有些任务被kill,就是这个原因。
mapred.child.java.opts
一般来说,都是reduce耗费内存比较大,这个选项是用来设置JVM堆的最大可用内存,但不要设置过大,如果超过2G,就应该考虑一下优化程序。
Map Related
Input Split的大小,决定了一个Job拥有多少个map,默认64M每个Split,如果输入的数据量巨大,那么默认的64M的block会有特别多Map Task,集群的网络传输会很大,给Job Tracker的调度、队列、内存都会带来很大压力。
mapred.min.split.size
这个配置项决定了每个 Input Split的最小值,也间接决定了一个Job的map 数目。

论坛徽章:
0
172 [报告]
发表于 2012-05-18 23:00 |只看该作者
回复 167# bbjmmj


    她爹,搞点有用的配置参数或者说明什么的呗

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
173 [报告]
发表于 2012-05-19 00:08 |只看该作者
本帖最后由 bbjmmj 于 2012-05-19 00:09 编辑
Gray1982 发表于 2012-05-18 23:00
回复 167# bbjmmj
http://code.google.com/p/maiter/

2x-10x faster than synchronous implementation, 60x faster than Hadoop, for Pagerank benchmark.

论坛徽章:
0
174 [报告]
发表于 2012-05-19 19:08 |只看该作者
hadoop的最小的硬件环境 和 最 mini的 配置文件

论坛徽章:
0
175 [报告]
发表于 2012-05-19 23:01 |只看该作者
回复 175# kns1024wh


    这些做实验到是可以
做datanode的机器,内存要大,Java的东西还是比较费内存的,硬盘看情况是用高速的还是用普通的大容量。

论坛徽章:
0
176 [报告]
发表于 2012-05-20 18:00 |只看该作者
回复 176# Gray1982


   最小的资源需求,并不是在浪费PC Server;hadoop愿意应该为做与大机相同的事情,通过hadoo的方式来实现;

  hadoop的应用不能孤立的从hadoop自身来看,计算量的实现能力与同计算代价的小鸡、大机的对比。

  hadoop目前的说的很多,而对于此的可量化的数据见到的很少?

论坛徽章:
0
177 [报告]
发表于 2012-05-20 21:50 |只看该作者
回复 177# kns1024wh


    可量化的数据见到的确实很少,一是因为相对来说用的不多,一是因为配置什么的都是根据实际情况来的

硬件配置当然还是要一点,多余的资源可以用来做别的嘛

论坛徽章:
0
178 [报告]
发表于 2012-05-21 09:46 |只看该作者
回复 178# Gray1982


    没有可以量化的数据来说明,hadoop 还真就是云里雾里 云呀

论坛徽章:
0
179 [报告]
发表于 2012-05-21 11:15 |只看该作者
kns1024wh 发表于 2012-05-21 09:46
回复 178# Gray1982


自己动手来个环境,就会明白很多东西

论坛徽章:
0
180 [报告]
发表于 2012-05-21 12:01 |只看该作者
回复 182# Gray1982


    demo用的 一个 虚拟就ok
    要是希望对这个有点了解还是要有数据存在的为好的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP