1 ... 3 4 5 6 789 10 11 12 ... 26 / 26 页下一页

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5-28） [复制链接]

bbjmmj

巨富豪门

论坛徽章:: 9

71楼 [报告]

发表于 2012-05-12 23:25 |只看该作者

Gray1982 发表于 2012-05-12 23:05
估计说的是海量文件，不是说单一文件的大小

我说的是硬盘性能问题，不要以为海量系统就不存在这个问题了，事实上大系统这个问题更加严重，为了硬盘，无论你的系统有多大有多海量，你都必须要牺牲一些东西以做妥协，而这些牺牲，经常是用户无法接受的，比如实时性、访问限制、可靠性等等。
你可千万别把我当菜鸟，HADOOP至少三年前我就用过，没有比较，我是不会乱说的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

72楼 [报告]

发表于 2012-05-12 23:29 |只看该作者

回复 71# kns1024wh

这文件我也知道，我想说的是里面的参数。我曾经改过，最起码的块大小，IO模型等，实在太多了
你那有个例子不

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bbjmmj

巨富豪门

论坛徽章:: 9

73楼 [报告]

发表于 2012-05-12 23:31 |只看该作者

kns1024wh 发表于 2012-05-12 23:19
回复 72# bbjmmj

前几年炒LUSTRE，那个时候HDFS还没火起来呢，某知名超算机构跟风用LUSTRE，累得疲于奔命，现在好多超算中心用的都是商业存储，HADOOP也会遇到同样的问题。

假定“Hadoop适合有大量数据需要计算处理的互联网应用”完全绝对正确，这其中就已经包含了万分之九千九百九十久的不适合，因为大家的数据都不够大。
你的数据够大，你用HADOOP也不怎么放心，是吧？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

74楼 [报告]

发表于 2012-05-12 23:36 |只看该作者

回复 72# bbjmmj

开网站不是为了分析日志，但用Hadoop很多是为了分析日志，精准定位
每天成T的日志要分析，你觉得用啥会更好一点呢？

我们都知道创新是王道，创新也不是一个人说创新就创新的，至于你说的一些问题，最起码在Hadoop上不是不可解决的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

75楼 [报告]

发表于 2012-05-12 23:39 |只看该作者

本帖最后由 Gray1982 于 2012-05-12 23:41 编辑

回复 74# bbjmmj

在这里讨论的无论你是新手也好，专家也好，都是为了更好的学习，所以只要说出自己的观点，都是值得尊重的
IO一直是个问题，所以不管用在那里都是问题
在Hadoop上，可以调节一些块大小，IO模式等来优化，尽可能的发挥其最大性能
当然，如果有更好的代替品就更好了
如果暂时没有的话，就先使用它，尽可能的发挥其最大性能吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bbjmmj

巨富豪门

论坛徽章:: 9

76楼 [报告]

发表于 2012-05-12 23:50 |只看该作者

Gray1982 发表于 2012-05-12 23:36
回复 72# bbjmmj

开网站不是为了分析日志，但用Hadoop很多是为了分析日志，精准定位

每天成T日志的网站数量已经很少了，现在随便一个6盘位服务器容量都能到10个T，每天1T日志，得十天才能灌满一台配置很一般的服务器。
得到日志，得先MAP，去掉不想分析的字段，然后再REDUCE，归并成需要的数据，你想想得多大规模的日志才需要HADOOP？我觉得咱得从策略上MAP REDUCE一下该不该用HADOOP了，最后发现已经剩不下几个网站了————MAP REDUCE悖论证明HADOOP不适用。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bbjmmj

巨富豪门

论坛徽章:: 9

77楼 [报告]

发表于 2012-05-12 23:55 |只看该作者

Gray1982 发表于 2012-05-12 23:39
回复 74# bbjmmj

在这里讨论的无论你是新手也好，专家也好，都是为了更好的学习，所以只要说出自己的观 ...

从海量数据分析的过程来看，用磁带机更合适，磁带机读写流式文件比硬盘快得多，而且性能抖动也很小，这点是硬盘无法与之相比的。好多中间结果是没必要保存的，磁带可靠性已足够保留中间结果。
仓库的重要性永远比不上生产线。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

78楼 [报告]

发表于 2012-05-13 00:30 |只看该作者

回复 79# bbjmmj
这里说的不仅仅是网站需要，电商后台需要的海量日志加上日积月累需要的空间很多
业务需要，有可能要查几月前的一些数据，所以日志空间还是需要的
根据业务需要来，也许你没碰到而已

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Gray1982

版主

论坛徽章:: 0

79楼 [报告]

发表于 2012-05-13 00:32 |只看该作者

回复 80# bbjmmj

如果PB级的数据，还经常用，那个更省钱？包括备份等数据维护。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

newfishwa

白手起家

论坛徽章:: 0

80楼 [报告]

发表于 2012-05-13 09:25 |只看该作者

　呵呵，大家讨论的很热烈啊，我也来说下我的看法。

HDFS实际上参照的是Google GFS的设计思想，可以认为是一个开源的GFS，那么Google在设计GFS之初，也考虑过其它的分布式文件系统，如lustrue，但是，它们都无法满足Google应用对文件系统的要求，因此，现实情况逼得Google不得不自己造轮子，不然，如果有现成的分布式文件系统解决方案，仅从成本方面考虑，Google也不会自己再去做个没有实际意义的文件系统了。
那么，Goolge的应用在存储有些什么特点呢？搞清了这些，也就搞清楚了GFS和HDFS的用武之地。
1)硬件极不可靠，主要是为了省钱，估计大家都对Google公布的那个经典蜘蛛网一样的服务器机柜有印象吧，GFS设计的前提就是硬件故障是一种常态，这主要也是因为Google出身平民，它的创始人最初只是学生，也没什么钱，无法购买更好的机器。而lustre就不一样了，它的定位是高性能环境下，而且也是大公司支持，不差钱，正因为如此，它将文件的存储的可靠性依赖于底下的硬件，它自身则专注于高性能。志不同，道也就不同了。
2)高可扩展，目前来说，数据的增长是惊人的，例子太多就不举了，光想想我们硬盘的进化，从GB级别到TB进化的速度就可想而知，因此，应用对存储的扩展能力是有要求的，GFS、HDFS在实际中都能做到几千台以上的规模，容量可通过增加机器水平扩展，这也是它的一个特点。
　 3)存储与计算相结合，GFS、HDFS用于存储的同时，还与上层的计算框架天然结合，在存储的分布上与计算充分结合，可有效提高计算的效率，这是其它分布式文件系统所没有的特点。
　　当然，GFS和HDFS也有很多局限，不具备通用文件系统的很多功能，如HDFS不支持Posix接口等，在这里面，功能的选取其实也是与应用具体相关的。

　　总的来说，如果应用是大文件、一次写入、多次读取的情况，或者在这基础上还有对数据计算的需求，那么，恭喜你，Hadoop一定是目前来说最高性价比的一个选择。
　　如果说是要把HDFS当通用文件系统使，那么对不起，会让你失望，你可以选择MFS、lustre、CEPH，它们可以满足你的需要。
　　
　　总的来说，HDFS也好，MFS、Lustre也好，它们都是工具，都不是万能的，我们能做的是把它们的特性掌握好，做到和应用最好的结合。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 ... 3 4 5 6 789 10 11 12 ... 26 / 26 页下一页

返回列表

Chinaunix › 论坛 › 数据库技术 › NoSQL技术 › 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5- ...

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop（获奖名单已公布-2012-5-28） [复制链接]

浏览过的版块