免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
0
31 [报告]
发表于 2012-05-11 12:29 |只看该作者
newfishwa 发表于 2012-05-11 12:21
回复 29# rootsecurity

补充一点是,还有一个second data node 也就是为了解决单点

论坛徽章:
0
32 [报告]
发表于 2012-05-11 13:17 |只看该作者
哪们高手能不能来一个hadoop入门操作实例?

论坛徽章:
0
33 [报告]
发表于 2012-05-11 13:39 |只看该作者
通告咧。。。我们又不是台湾艺人

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
34 [报告]
发表于 2012-05-11 14:20 |只看该作者
Hadoop源自Google的论文MapReduce,其底层文件系统可以是任意,但目前主要是HDFS,MapReduce原理还是比较简单,就是采用并行处理的思想:
1、首先将要处理的数据分成多个大小一致的数据块,每一个任务处理一个数据块,处理函数是用户自定义的map函数,入参是看K/V对,出参可以K/V对,参数类型可以由用户自己定义;
2、MAP处理的数据保存在本地(根据reduce任务个数和key进行hash用于后续的分发),处理完成后通知master,再由master通知reduce节点来请求其需要的数据段,等所有的map节点都处理完成后,reduce节点就能获取所有的需要处理的数据,调用用户自定义的reduce函数进行处理,同时将输出结果写入HDFS

hadoop一般用于批处理非实时数据分析,其优点是为用户提供通用的分布式系统框架,不需要编程人员来处理复杂的分布式故障处理等操作,缺点是用户自己需要编程(编写map、reduce的业务处理),另外就是hadoop性能方面不是太好

论坛徽章:
0
35 [报告]
发表于 2012-05-11 14:30 |只看该作者
newfishwa 发表于 2012-05-11 12:42
是的,如果要构建一个实用的HDFS,就要解决NameNode的单点问题,如果NameNode失效,整个HDFS就无法工作 ...


学习学习

论坛徽章:
0
36 [报告]
发表于 2012-05-11 14:53 |只看该作者
别讨论hadoop了, 还有那个map/reduce

我曾经做过1年这个东西

        1.  海量数据, 一般一份都放不下, 还放3份
             我当时处理的数据, 最头疼的就是磁盘老满, 还老是从磁带中倒数据出来.
             总之, 实际情况是一份根本放不下.

        2.  还是上面问题, 放不下, 需要压缩
             可是hadoop的压缩程序使用c写的(可笑吧), 用的java什么什么本地库(我最鄙视的地方)
             并且我没有搞定过, 那会刚出, 我是没编译通过.

         3. map/reduce让算法更加模糊不清
             海量数据处理的方法是什么, 我告诉你吧(查找和排序类的算法)
             在这些算法没有学娴熟之前, 再带进来一种map/reduce的编程方法, 你能搞定定吗.

         4. 内存
             依赖内存的程序必然不是更快的,  java就是, 它依赖大内存. 可是hadoop又想用它来解决海量数据处理
             海量数据处理当然讲究速度. 那就是和java的特征是冲突了


          说简单的, hadoop自身就是个茅盾体
             一份都放不下, 还多份
             害怕丢数据, 那就copy一份到磁带上呗, 一个cp -rp命令就能解决的事, 需要你整个hdfs, 写了10w行代码???!!!!!
             丢一点怎么了, 注意这是海量数据, 每次google的结果你都看了吗, 你需要google每次都正确的返回所有被搜索网页吗???
             说到最后, 你怎么排序, 你怎么查找, 你为什么回避这些本质问题.
            
          忠告, 省点时间吧!!!!!
          让这个所谓的hadoop自己消失......

论坛徽章:
0
37 [报告]
发表于 2012-05-11 14:59 |只看该作者
我晕, 不是c版啊

   看错了, 走错地方了
  
    不好意思

论坛徽章:
0
38 [报告]
发表于 2012-05-11 17:00 |只看该作者
关注一下Hadoop归档

论坛徽章:
0
39 [报告]
发表于 2012-05-11 17:45 |只看该作者
很精辟~~赞~回复 16# newfishwa


   

论坛徽章:
0
40 [报告]
发表于 2012-05-11 19:34 |只看该作者
回复 30# newfishwa


    呵呵,感谢您的指导。我上次就听人那么一说。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP