Aquester 发表于 2010-01-03 00:01

基于Hadoop的开源数据挖掘工具Mohout

Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”(见 参考资料),但此后在发展中又并入了更多广泛的机器学习方法。

Mahout 支持一些集群算法实现(都是使用 Map-Reduce 编写的),它们都有一组各自的目标和标准:
Canopy:一种快速集群算法,通常用于为其他集群算法创建初始种子。
k-Means(以及 模糊 k-Means):根据项目与之前迭代的质心(或中心)之间的距离将项目添加到 k 集群中。
Mean-Shift:无需任何关于集群数量的推理 知识的算法,它可以生成任意形状的集群。
Dirichlet:借助基于多种概率模型的集群,它不需要提前执行特定的集群视图。

官方网址:http://ucene.apache.org/mahout/
Hadoop技术论坛:以下任一域名均可:
http://bbs.hadoopor.com
http://www.hadoopor.com
http://forum.hadoopor.com
http://hadoop.hadoopor.com
http://hdfs.hadoopor.com
http://mapreduce.hadoopor.com
http://hive.hadoopor.com
http://bigtable.hadoopor.com

[ 本帖最后由 Aquester 于 2010-1-7 11:34 编辑 ]

yc1001aaa 发表于 2010-03-02 16:00

支持楼主一个的哩~!
页: [1]
查看完整版本: 基于Hadoop的开源数据挖掘工具Mohout