免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8671 | 回复: 1

[Hadoop&HBase] 基于Hadoop的开源数据挖掘工具Mohout [复制链接]

论坛徽章:
0
发表于 2010-01-03 00:01 |显示全部楼层
Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”(见 参考资料),但此后在发展中又并入了更多广泛的机器学习方法。

Mahout 支持一些集群算法实现(都是使用 Map-Reduce 编写的),它们都有一组各自的目标和标准:
Canopy:一种快速集群算法,通常用于为其他集群算法创建初始种子。
k-Means(以及 模糊 k-Means):根据项目与之前迭代的质心(或中心)之间的距离将项目添加到 k 集群中。
Mean-Shift:无需任何关于集群数量的推理 知识的算法,它可以生成任意形状的集群。
Dirichlet:借助基于多种概率模型的集群,它不需要提前执行特定的集群视图。

官方网址:http://ucene.apache.org/mahout/
Hadoop技术论坛:以下任一域名均可:
http://bbs.hadoopor.com
http://www.hadoopor.com
http://forum.hadoopor.com
http://hadoop.hadoopor.com
http://hdfs.hadoopor.com
http://mapreduce.hadoopor.com
http://hive.hadoopor.com
http://bigtable.hadoopor.com

[ 本帖最后由 Aquester 于 2010-1-7 11:34 编辑 ]

论坛徽章:
0
发表于 2010-03-02 16:00 |显示全部楼层
支持楼主一个的哩~!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2021中国数据库技术大会

【数造未来】2021年10月18日-20日第十二届中国数据库技术大会
ITPUB、大会的会员您们好: 因目前国内疫情严峻,为响应北京市最新疫情防控要求,保障参会人员的健康和安全,组委会经协商决定:DTCC2021第十二届中国数据库技术大会延期至10月18日-20日(周一~周三)在北京国际会议中心举行,由此给各位带来的不便,敬请谅解!

大会官网
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP