免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3346 | 回复: 2
打印 上一主题 下一主题

[Hadoop&HBase] hadoop wordcount 问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-02-02 17:11 |只看该作者 |倒序浏览
刚刚开始学习hadoop,搭好环境跑了一下wordcount程序。出现一个问题。我的输入数据有5.8G,采用mapred.map.tasks=2,mapred.reduce.tasks=2时,没有问题。当mapred.map.task2=2,maprd.reduce.tasks=1时,在reduce阶段出现问题,reduce一直进行到89%,就进行不下去,然后retry,最后任务失败。
  tasknode的错误如下。
[code=C/C++][/code]java.io.IOException: subprocess still running
R/W/S=340694604/0/0 in:439605=340694604/775 [rec/s] out:0=0/775 [rec/s]
minRecWrittenToEnableSkip_=9223372036854775807 LOGNAME=null
HOST=null
USER=search
HADOOP_USER=null
last Hadoop input: |null|
last tool output: |null|
Date: Thu Feb 02 16:08:02 CST 2012
Broken pipe
at org.apache.hadoop.streaming.PipeReducer.reduce(PipeReducer.java:131)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:51
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:419)
at org.apache.hadoop.mapred.Child$4.run(Child.java:259)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:416)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
at org.apache.hadoop.mapred.Child.main(Child.java:253)

C/C++ codestderr logs

Traceback (most recent call last):
  File "/taskTracker/search/jobcache/job_201202021401_0005/attempt_201202021401_0005_r_000000_0/work/./reduce.py", line 16, in ?
    wc[word] = count
MemoryError




map的源码如下:
Python code#! /usr/bin/python
import sys

for line in sys.stdin:
    line =  line.strip()
    words = line.split()
    for word in words:
        print '%s\t%s' % (word,1)


reduce的源码如下
Python code#! /usr/bin/python
import sys

for line in sys.stdin:
    line =  line.strip()
    words = line.split()
    for word in words:
        print '%s\t%s' % (word,1)

论坛徽章:
0
2 [报告]
发表于 2012-02-04 20:11 |只看该作者
hadoop,什么东东

论坛徽章:
0
3 [报告]
发表于 2012-03-12 12:44 |只看该作者
帮你顶。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP