免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: Gray1982
打印 上一主题 下一主题

[Hadoop&HBase] 【讨论】海量数据分析之Hadoop(获奖名单已公布-2012-5-28) [复制链接]

论坛徽章:
0
201 [报告]
发表于 2012-05-23 22:18 |只看该作者
回复 204# bbjmmj


多捅咕捅咕,有啥好的就多说说。
Hadoop对块大小怎么分配有研究不?设置64M的一个块,如果70M是不是要用到2个块呢

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
202 [报告]
发表于 2012-05-23 23:41 |只看该作者
Gray1982 发表于 2012-05-23 22:18
回复 204# bbjmmj



确实要用到两个块,不过空间占用上却不是128M的空间,而是70M的空间。64M是每个块的最大容量而不是固定容量,这一点上它跟MFS是一样的。

论坛徽章:
0
203 [报告]
发表于 2012-05-24 00:27 |只看该作者
回复 206# bbjmmj


  

看看,这说的多清楚,多分享下其它的嘛  

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
204 [报告]
发表于 2012-05-24 08:15 |只看该作者
Gray1982 发表于 2012-05-24 00:27
回复 206# bbjmmj


呵呵,其实从刚一开始接触HADOOP,我就决定放弃它了,因为它用了是狗改不了吃屎的JAVA。JAVA本身没有问题,有问题的是用JAVA的人,总喜欢捆绑一些垃圾上去,他们化神奇为腐朽的功力可以说举世无双,随便什么东西,一JAVA了全都能变成最垃圾的垃圾。
HADOOP架构是极不合理的,HDFS基本上一无是处,但是我却并不介意HDFS有多垃圾,我介意的是生产系统上的数据得先倒腾到HDFS上才可以处理,这么做不仅麻烦,同时也意味着你必须得再增加专门用于HADOOP的设备才可以用它,这是个巨大的浪费,时间和设备上的双重浪费。

论坛徽章:
0
205 [报告]
发表于 2012-05-24 11:21 |只看该作者
回复 208# bbjmmj


总的来说是人的问题,唉
HDFS是有点麻烦,还要把数据放上面,用Flume会好些
这不是没别的办法嘛,如果有,谁都会用简洁的
   

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
206 [报告]
发表于 2012-05-24 15:17 |只看该作者
Gray1982 发表于 2012-05-24 11:21
回复 208# bbjmmj


我觉得最关键的问题是搞清楚HADOOP是什么。确切地说,HADOOP是APACHE WEB服务器的辅助日志处理工具。这是根本。
HADOOP几年前就已经投放市场,几乎无人问津,原因是你想用它,必须得接受它的垄断,你得首先把你的核心应用迁移到它上面,要知道开源跟垄断根本就是水火不容的,所以HADOOP这种做法导致它长期不被市场认同。
关键词统计,一定有HADOOP以外的方法,要不然互联网这些年都咋统计关键词了?

论坛徽章:
0
207 [报告]
发表于 2012-05-24 15:41 |只看该作者
回复 210# bbjmmj


    关键词统计,一定有HADOOP以外的方法,有肯定是有,但你能说出几个大家都能用的呗,具体量化一下呗。
小量的自己写脚本都有,大家量的呢,几十T的数据总不能单台跑脚本吧···········

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
208 [报告]
发表于 2012-05-24 16:13 |只看该作者
Gray1982 发表于 2012-05-24 15:41
回复 210# bbjmmj


没研究过,因为实在太缺乏玩大型网站的机会了,这些知识只能现发现卖了。

论坛徽章:
0
209 [报告]
发表于 2012-05-24 19:03 |只看该作者
回复 212# bbjmmj


嗯,没规模可能会慢点,不过,也可以根据规模来做优化,这不就ok了嘛

论坛徽章:
9
技术图书徽章
日期:2014-10-14 15:48:13数据库技术版块每日发帖之星
日期:2015-06-04 22:20:00数据库技术版块每日发帖之星
日期:2015-06-10 22:20:00数据库技术版块每日发帖之星
日期:2015-06-11 22:20:00数据库技术版块每日发帖之星
日期:2015-06-13 22:20:00IT运维版块每日发帖之星
日期:2015-09-22 06:20:00IT运维版块每日发帖之星
日期:2015-12-08 06:20:00综合交流区版块每日发帖之星
日期:2016-02-02 06:20:00IT运维版块每日发帖之星
日期:2016-07-25 06:20:00
210 [报告]
发表于 2012-05-24 21:23 |只看该作者
Gray1982 发表于 2012-05-24 19:03
回复 212# bbjmmj


十几年前我刚上网那阵,YAHOO是我知道的唯一的域名,后来过了相当长时间才知道有GOOGLE。它们两个都用MAP REDUCE,YAHOO用HADOOP,GOOGLE没用HADOOP,从近几年发展的情况来看,YAHOO明显弱于GOOGLE,而且差距迅速拉大,这说明YAHOO的技术体系比不上GOOGLE先进,那么我选择HADOOP,也就意味着我选择了落后的技术,而且是一棵树上吊死的技术,我认为我不会做这种愚蠢的选择。
如果我有足够多的文本信息需要统计关键字的话,我一定会选择非HADOOP的方法,没有我需要的技术,我会创造它。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP