1 2 345 6 7 8 9 10 ... 26 / 26 页下一页

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5-28） [复制链接]

Gray1982

版主

论坛徽章:: 0

31楼 [报告]

发表于 2012-05-11 12:29 |只看该作者

newfishwa 发表于 2012-05-11 12:21
回复 29# rootsecurity

补充一点是，还有一个second data node 也就是为了解决单点

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zzosce

白手起家

论坛徽章:: 0

32楼 [报告]

发表于 2012-05-11 13:17 |只看该作者

哪们高手能不能来一个hadoop入门操作实例？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

永世斑斓

白手起家

论坛徽章:: 0

33楼 [报告]

发表于 2012-05-11 13:39 |只看该作者

通告咧。。。我们又不是台湾艺人

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

heguangwu

大富大贵

论坛徽章:: 15

34楼 [报告]

发表于 2012-05-11 14:20 |只看该作者

Hadoop源自Google的论文MapReduce，其底层文件系统可以是任意，但目前主要是HDFS，MapReduce原理还是比较简单，就是采用并行处理的思想：
1、首先将要处理的数据分成多个大小一致的数据块，每一个任务处理一个数据块，处理函数是用户自定义的map函数，入参是看K/V对，出参可以K/V对，参数类型可以由用户自己定义；
2、MAP处理的数据保存在本地（根据reduce任务个数和key进行hash用于后续的分发），处理完成后通知master，再由master通知reduce节点来请求其需要的数据段，等所有的map节点都处理完成后，reduce节点就能获取所有的需要处理的数据，调用用户自定义的reduce函数进行处理，同时将输出结果写入HDFS

hadoop一般用于批处理非实时数据分析，其优点是为用户提供通用的分布式系统框架，不需要编程人员来处理复杂的分布式故障处理等操作，缺点是用户自己需要编程（编写map、reduce的业务处理），另外就是hadoop性能方面不是太好

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

35楼 [报告]

发表于 2012-05-11 14:30 |只看该作者

newfishwa 发表于 2012-05-11 12:42
是的，如果要构建一个实用的HDFS，就要解决NameNode的单点问题，如果NameNode失效，整个HDFS就无法工作 ...

学习学习

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

inet_addr

白手起家

论坛徽章:: 0

36楼 [报告]

发表于 2012-05-11 14:53 |只看该作者

别讨论hadoop了, 还有那个map/reduce

我曾经做过1年这个东西

      1.  海量数据, 一般一份都放不下, 还放3份
         我当时处理的数据, 最头疼的就是磁盘老满, 还老是从磁带中倒数据出来.
         总之, 实际情况是一份根本放不下.

      2.  还是上面问题, 放不下, 需要压缩
         可是hadoop的压缩程序使用c写的(可笑吧), 用的java什么什么本地库(我最鄙视的地方)
         并且我没有搞定过, 那会刚出, 我是没编译通过.

      3. map/reduce让算法更加模糊不清
         海量数据处理的方法是什么, 我告诉你吧(查找和排序类的算法)
         在这些算法没有学娴熟之前, 再带进来一种map/reduce的编程方法, 你能搞定定吗.

      4. 内存
         依赖内存的程序必然不是更快的,  java就是, 它依赖大内存. 可是hadoop又想用它来解决海量数据处理
         海量数据处理当然讲究速度. 那就是和java的特征是冲突了

      说简单的, hadoop自身就是个茅盾体
         一份都放不下, 还多份
         害怕丢数据, 那就copy一份到磁带上呗, 一个cp -rp命令就能解决的事, 需要你整个hdfs, 写了10w行代码???!!!!!
         丢一点怎么了, 注意这是海量数据, 每次google的结果你都看了吗, 你需要google每次都正确的返回所有被搜索网页吗???
         说到最后, 你怎么排序, 你怎么查找, 你为什么回避这些本质问题.

      忠告, 省点时间吧!!!!!
      让这个所谓的hadoop自己消失......