免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 59166 | 回复: 9
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
1 [报告]
发表于 2012-05-10 11:16 |显示全部楼层
开始讨论Hadoop了,CU社区的力量果然强大啊,必须支持~

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
2 [报告]
发表于 2012-05-10 12:04 |显示全部楼层
目前也在初步的学习使用中,就简单讲一下对Hadoop的入门理解和认识:

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage.

以上是Hadoop官方文档给出的Hadoop描述定义,简单的讲: Hadoop是一个设计用来处理大数据的分布式计算框架,特点是能够使用一种简单的编程模式来进行集群计算(Cluster Computing), 它的设计目标是每个计算节点都能提供本地的计算和存储,而且计算节点能够很好的进行水平扩展(Scale up )。而HDFS(Hadoop Distributed File System)是Hadoop分布式计算框架实施的基础。

Hadoop所应用的场景是海量数据分析和计算。比如上面讲的Log日志分析以及BI项目应用。

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
3 [报告]
发表于 2012-05-11 10:39 |显示全部楼层
bbjmmj 发表于 2012-05-10 23:25
HDFS局限性很大,只能支持流式写入,不支持随机的文件写入,随机读的性能也很差,小文件性能也不好,除非你 ...


HADOOP本质上是个批处理系统,是不适合实时应用的,当然对随机读写的需求就不高了~

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
4 [报告]
发表于 2012-05-14 12:04 |显示全部楼层
回复 56# bbjmmj

Hadoop是一个分布式计算框架,它的特点在于降低了分布式编程实现的复杂度。那么,如果你不赞成使用Hadoop,关于分布式计算你能否提供一个更好的解决方案实现供大家参考?
另关于Big Data,这个看你怎么理解,就我个人认识,这个应该是和BI(Business Intelligence)应用的兴起有关的,同样的叫法还有海量数据,其实都是代表了对数据的分析和挖掘(DM)的价值的重视~


   

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
5 [报告]
发表于 2012-05-18 15:44 |显示全部楼层
方兆国 发表于 2012-05-16 20:08
这是百度百科上的一段儿

这个在内存中的调度该不是文件系统能够决定的吧?



这个不是在内存调度,这个就是分布式计算,就是一个大的计算在各个节点完成,然后再汇总~

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
6 [报告]
发表于 2012-05-18 15:50 |显示全部楼层
方兆国 发表于 2012-05-16 20:14
回复 129# bbjmmj



Hadoop提供了一种架构优势(集群),而不是依赖于大型服务器来提供高计算能力,是一种可行的可控成本解决方案。但,这并不是意味着否定好机器配置的价值,对于重要的业务系统,好的硬件配置是必须的。

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
7 [报告]
发表于 2012-05-18 16:16 |显示全部楼层
Gray1982 发表于 2012-05-18 15:56
现在虽说N多开源软件都说在普通PC上可以正常运行,但在真正的生产环境中,有几个不用正式服务器的?? ...



是啊,大家的认识是一致的。哪个把楼弄歪的MM呢?这个话题是因她而起的~

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
8 [报告]
发表于 2012-08-02 16:02 |显示全部楼层
回复 251# owenhappy


那么,DM适合用Hadoop吗?你理解的BI是怎样的~

   

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
9 [报告]
发表于 2012-08-03 16:09 |显示全部楼层
本帖最后由 hbsycw 于 2012-08-03 16:14 编辑

回复 255# owenhappy

ETL是DW的前提和基础,而DM这一块是构筑的DW的基础之上的,这里谈的是DM适不适合用Hadoop?因此,就没必要扯其它的~

关于系统架构是用PC Server 还是小机,这个有另一个帖子讨论,这里就不和你辩驳了。

http://bbs.chinaunix.net/thread-3750910-1-1.html


   

论坛徽章:
4
CU十二周年纪念徽章
日期:2013-10-24 15:41:34摩羯座
日期:2013-12-24 13:05:332015亚冠之西悉尼流浪者
日期:2015-10-09 16:03:47fulanqi
日期:2016-06-17 17:54:25
10 [报告]
发表于 2012-08-10 16:14 |显示全部楼层
回复 255# owenhappy


用户行为分析,看你的应用程序架构,如果有比较详细的LOG记录,分析这个LOG即可~


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP