免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4624 | 回复: 1
打印 上一主题 下一主题

SQL Server 2008 数据挖掘的线性回归算法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-03-10 14:28 |只看该作者 |倒序浏览
  SQL Server 2008 数据挖掘的线性回归算法




Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测。
  该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。

关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误。回归方程式中的系数 a 和 b 可以调整回归线的角度和位置。可以对 a 和 b 进行调整,直到与所有点都关联的错误总数达到最低值,以此获得回归公式。
  还有其他类型的使用多个变量的线性回归以及非线性回归方法。但是,线性回归是一种众所周知的有用方法,可对一些潜在因素中更改的响应进行建模。
  示例
  可以使用线性回归确定两个连续列之间的关系。例如,您可以使用线性回归根据生产或销售数据计算趋势线。还可以使用线性回归作为基础,来开发更复杂的数据挖掘模型,以评估数据列之间的关系。
  尽管有许多计算线性回归的方法,而且这些方法不需要数据挖掘工具,但是使用 Microsoft 线性回归算法计算线性回归的优势在于可以自动计算并测试变量之间所有可能的关系。您不必选择计算方法,如计算最小平方法。但对于结果受多个因素影响的应用场景,线性回归可能会过分简化其中的关系。
  算法的原理
  Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体。如果选择 Microsoft 线性回归算法,将会调用带有参数的 Microsoft 决策树算法特例,这些参数不但会限定算法行为,而且还会要求输入数据的类型。另外,在线性回归模型中,整个数据集都用于计算初始传递中的关系,而标准决策树模型则不断将数据拆分为更小的子集或树。
  线性回归模型所需的数据
  在准备用于线性回归模型的数据时,应该了解特定算法的要求。这包括所需数据量以及数据使用方式。此模型类型的要求如下:
  单个 key 列:每个模型都必须包含一个用于唯一标识每条记录的数值列或文本列。不允许使用复合键。
  可预测列:至少需要一个可预测列。可以在一个模型中包含多个可预测属性,但是这些可预测属性必须是连续数值数据类型。不能将 datetime 数据类型用作可预测属性,即使数据的本机存储是数值类型。
  输入列:输入列必须包含连续数值数据,并且向其分配相应的数据类型。
  查看线性回归模型
  若要浏览模型,可以使用“Microsoft 树查看器”。线性回归模型的树结构非常简单,回归方程式的所有相关信息都包含在一个节点中。
  对于线性回归模型,模型内容包括元数据、回归公式和有关输入值分布的统计信息。
  创建预测
  模型处理完毕后,结果将以一组统计信息和线性回归公式的形式存储,您可以利用这些结果来计算未来趋势。
  除了通过选择 Microsoft 线性回归算法创建线性回归模型外,您还可以在可预测属性为连续数值数据类型时,创建包含回归的决策树模型。在这种情况下,如果找到适当的分离点,该算法会对数据进行拆分;但对于某些数据区域,则会创建回归公式。

论坛徽章:
0
2 [报告]
发表于 2011-03-10 14:57 |只看该作者
牛人。。不错,,,分享下经验。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP