论坛徽章:: 4

1楼 [报告]

发表于 2012-05-10 11:16 |显示全部楼层

开始讨论Hadoop了，CU社区的力量果然强大啊，必须支持~

hbsycw

丰衣足食

论坛徽章:: 4

2楼 [报告]

发表于 2012-05-10 12:04 |显示全部楼层

目前也在初步的学习使用中，就简单讲一下对Hadoop的入门理解和认识：

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage.

以上是Hadoop官方文档给出的Hadoop描述定义，简单的讲: Hadoop是一个设计用来处理大数据的分布式计算框架，特点是能够使用一种简单的编程模式来进行集群计算（Cluster Computing), 它的设计目标是每个计算节点都能提供本地的计算和存储，而且计算节点能够很好的进行水平扩展（Scale up ）。而HDFS(Hadoop Distributed File System)是Hadoop分布式计算框架实施的基础。

Hadoop所应用的场景是海量数据分析和计算。比如上面讲的Log日志分析以及BI项目应用。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

3楼 [报告]

发表于 2012-05-11 10:39 |显示全部楼层

bbjmmj 发表于 2012-05-10 23:25
HDFS局限性很大，只能支持流式写入，不支持随机的文件写入，随机读的性能也很差，小文件性能也不好，除非你 ...

HADOOP本质上是个批处理系统，是不适合实时应用的，当然对随机读写的需求就不高了~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

4楼 [报告]

发表于 2012-05-14 12:04 |显示全部楼层

回复 56# bbjmmj

Hadoop是一个分布式计算框架，它的特点在于降低了分布式编程实现的复杂度。那么，如果你不赞成使用Hadoop，关于分布式计算你能否提供一个更好的解决方案实现供大家参考？
另关于Big Data，这个看你怎么理解，就我个人认识，这个应该是和BI（Business Intelligence）应用的兴起有关的，同样的叫法还有海量数据，其实都是代表了对数据的分析和挖掘（DM）的价值的重视~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

5楼 [报告]

发表于 2012-05-18 15:44 |显示全部楼层

方兆国发表于 2012-05-16 20:08
这是百度百科上的一段儿

这个在内存中的调度该不是文件系统能够决定的吧？

这个不是在内存调度，这个就是分布式计算，就是一个大的计算在各个节点完成，然后再汇总~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

6楼 [报告]

发表于 2012-05-18 15:50 |显示全部楼层

方兆国发表于 2012-05-16 20:14
回复 129# bbjmmj

Hadoop提供了一种架构优势（集群），而不是依赖于大型服务器来提供高计算能力，是一种可行的可控成本解决方案。但，这并不是意味着否定好机器配置的价值，对于重要的业务系统，好的硬件配置是必须的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

7楼 [报告]

发表于 2012-05-18 16:16 |显示全部楼层

Gray1982 发表于 2012-05-18 15:56
现在虽说N多开源软件都说在普通PC上可以正常运行，但在真正的生产环境中，有几个不用正式服务器的？？ ...

是啊，大家的认识是一致的。哪个把楼弄歪的MM呢？这个话题是因她而起的~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

8楼 [报告]

发表于 2012-08-02 16:02 |显示全部楼层

回复 251# owenhappy

那么，DM适合用Hadoop吗？你理解的BI是怎样的~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

9楼 [报告]

发表于 2012-08-03 16:09 |显示全部楼层

本帖最后由 hbsycw 于 2012-08-03 16:14 编辑

回复 255# owenhappy

ETL是DW的前提和基础，而DM这一块是构筑的DW的基础之上的，这里谈的是DM适不适合用Hadoop？因此，就没必要扯其它的~

关于系统架构是用PC Server 还是小机，这个有另一个帖子讨论，这里就不和你辩驳了。

http://bbs.chinaunix.net/thread-3750910-1-1.html

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hbsycw

丰衣足食

论坛徽章:: 4

10楼 [报告]

发表于 2012-08-10 16:14 |显示全部楼层

回复 255# owenhappy

用户行为分析，看你的应用程序架构，如果有比较详细的LOG记录，分析这个LOG即可~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 数据库技术 › NoSQL技术 › 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5- ...

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5-28） [复制链接]