论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2012-10-16 14:58 |只看该作者 |倒序浏览

本帖最后由 zuoninger 于 2012-10-16 15:00 编辑

最广为接受的定义是，数据挖掘（data mining）是数据“模型”的发现过程。而“模型”却可以有多种含义。下面介绍在建模方面最重要的几个方向。

统计建模

最早使用“data mining”术语的人是统计学家。术语“data mining”或者“data dredging”最初是贬义词，意指试图抽取出数据本身不支持的信息的过程。1.2节给出了这种挖掘情况下可能犯的几类错误。当然，现在术语“data mining”的意义已经是正面的了。目前，统计学家认为数据挖掘就是统计模型（statistical model）的构建过程，而这个统计模型指的就是可见数据所遵从的总体分布。

例1.1　假定现有的数据是一系列数字。这种数据相对于常用的挖掘数据而言显得过于简单，但这只是为了说明问题而采用的例子。统计学家可能会判定这些数字来自一个高斯分布（即正态分布），并利用公式来计算该分布最有可能的参数值。该高斯分布的均值和标准差能够完整地刻画整个分布，因而成为上述数据的一个模型。

机器学习
有些人将数据挖掘看成是机器学习的同义词。毫无疑问，一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法，比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。

某些场景下上述的数据利用方式是合理的。机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。比如，我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。因此，在Netflix竞赛要求设计一个算法来预测观众对影片的评分时，基于已有评分样本的机器学习算法获得了巨大成功。在9.4节中，我们将讨论此类算法的一个简单形式。
另一方面，当挖掘的目标能够更直接地描述时，机器学习方法并不成功。一个有趣的例子是，WhizBang!实验室曾试图使用机器学习方法在Web上定位人们的简历。但是不管使用什么机器学习算法，最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。由于看过或者写过简历的人都对简历包含哪些内容非常清楚， Web页面是否包含简历毫无秘密可言。因此，使用机器学习方法相对于直接设计的简历发现算法而言并无任何优势。

建模的计算方法
近年来，计算机科学家已将数据挖掘看成一个算法问题。这种情况下，数据模型仅仅就是复杂查询的答案。例如，给定例1.1中的一系列数字，我们可以计算它们的均值和标准差。需要注意的是，这样计算出的参数可能并不是这组数据的最佳高斯分布拟合参数，尽管在数据集规模很大时两者非常接近。
数据建模有很多不同的方法。前面我们已经提到，数据可以通过其生成所可能遵从的统计过程构建来建模。而其他的大部分数据建模方法可以描述为下列两种做法之一：

(1) 对数据进行简洁的近似汇总描述；
(2) 从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。

在接下来的内容中，我们将探究上述两种做法。

数据汇总
一种最有趣的数据汇总形式是PageRank，它也是使谷歌成功的关键算法之一，我们将在第5章对它进行详细介绍。在这种形式的Web挖掘当中，Web的整个复杂结构可由每个页面所对应的一个数字归纳而成。这种数字就是网页的PageRank值，即一个Web结构上的随机游走者在任意给定时刻处于该页的概率（这是极其简化的一种说法）。PageRank的一个非常好的特性就是它能够很好地反映网页的重要性，即典型用户在搜索时期望返回某个页面的程度。

另一种重要的数据汇总形式是聚类，第7章将予以介绍。在聚类中，数据被看成是多维空间下的点，空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示，比如通过类别质心及类别中的点到质心的平均距离来描述。这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。

例1.2　一个利用聚类来解决问题的著名实例发生在很久以前的伦敦，在整个问题的解决中并没有使用计算机。内科医生John Snow在处理霍乱爆发时在城市地图上标出了病例的发生地点。图1-1给出了该图的一个小片段，展示了病例的传播情况。

图中显示，病例聚集在某些交叉路口。这些路口的水井已经被污染，离这些水井最近的居民染上了疾病，而清洁的水井附近的居民则没有染病。如果没对这些数据进行聚类，霍乱的病因就难以揭开。

特征抽取
典型的基于特征的模型会从数据中寻找某个现象的最极端样例，并使用这些样例来表示数据。熟悉机器学习的一个分支——贝叶斯网络（并不在本书的讨论范围内）的读者应该会知道，在贝叶斯网络中，可以利用寻找对象间的最强统计依赖来表示所有统计关联，从而表示出对象之间的复杂关系。我们将要介绍大规模数据集下的一些重要的特征抽取类型，它们包括以下两种。

(1) 频繁项集（frequent itemset）　该模型适用于多个小规模项集组成的数据，就像我们将在第6章讨论的购物篮问题（market-basket problem）一样。我们寻找那些在很多购物篮中同时出现的小规模项集，这些频繁项集就是我们要找的刻画数据的特征。这种挖掘的原始应用的的确确发生在真实的购物篮场景下：在商店或者超市收银台结账的时候确实会发现某些物品会被顾客同时购买，例如汉堡包和番茄酱，这些物品就组成所谓的项集。

(2) 相似项（similar item）　很多时候，数据往往看上去相当于一系列集合，我们的目标是寻找那些共同元素比例较高的集合对。一个例子是将在线商店（如Amazon）的顾客看成是其已购买的商品的集合。为了使Amazon能够向某顾客推荐他可能感兴趣的其他商品，Amazon可以寻找与该顾客相似的顾客群，并把他们当中大部分人购买过的商品也推荐给他。该过程称为协同过滤（collaborative filtering）。如果顾客的兴趣都很单一，即他们只购买某一类的商品，那么将顾客聚类的方法可能会起作用。然而，由于顾客大都对许多不同的商品感兴趣，因此对每个顾客而言，寻找兴趣相似的那部分顾客并根据这些关联对数据进行表示的做法会更有用。我们将在第3章讨论相似性。

摘自《大数据：互联网大规模数据挖掘与分布式处理》

文库|博客

lloydm lloydm 当前离线禁止访问好友博客消息论坛徽章: 0	2楼 [报告] 发表于 2012-11-23 09:57 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
lloydm lloydm 当前离线禁止访问好友博客消息论坛徽章: 0	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

wilensky

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2012-12-13 12:46 |只看该作者

有没有数据挖掘的高手，有问题请教哈

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

4楼 [报告]

发表于 2012-12-28 19:06 |只看该作者

当然，现在术语“data mining”的意义已经是正面的了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 数据库技术 › 数据仓库与数据挖掘 › 数据挖掘的定义

lloydm lloydm 当前离线禁止访问好友博客消息论坛徽章: 0	2楼 [报告] 发表于 2012-11-23 09:57 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
lloydm lloydm 当前离线禁止访问好友博客消息论坛徽章: 0	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

数据挖掘的定义 [复制链接]