免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2802 | 回复: 0
打印 上一主题 下一主题

数据挖掘的逻辑体系结构 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-03-08 13:23 |只看该作者 |倒序浏览
数据挖掘的逻辑体系结构




数据挖掘过程涉及多个组件的交互。您可以访问 SQL Server 数据库中的数据源或任何其他数据源,以便用于定型、测试或预测。使用 Business Intelligence Development Studio 或 Visual Studio 2005 可以定义数据挖掘结构和模型。您可以通过使用 SQL Server Management Studio 来管理数据挖掘对象,并创建预测和查询。完成解决方案之后,您可以将其部署到 Analysis Services 实例。
  数据挖掘解决方案和项目
  若要创建数据挖掘项目,您必须定义数据源、数据挖掘结构和数据挖掘模型。创建的数据挖掘项目还可以包含用于验证模型的测试集。将项目部署到服务器之后,您可以在初始解决方案中继续开发和测试新模型。
  数据挖掘源数据
  您无需使用多维数据集或其他专用数据源即可执行数据挖掘。对于关系数据表或已定义为 Analysis Services 数据源视图的任何其他数据源,您可以快速方便地进行数据挖掘。在数据挖掘中使用的数据并不会存储在数据挖掘解决方案中,而仅存储绑定。该数据可能驻留在 SQL Server 早期版本创建的数据库、CRM 系统,或者甚至平面文件中。使用 Analysis Services 数据源视图,您可以通过指定多个表之间的联接来组合各种数据源。您还可以添加具有多对一关系的表,以便创建嵌套表列。
  如果需要使用数据挖掘解决方案中的数据,Analysis Services 将读取源的数据,并生成使用的聚合信息以及其他信息的缓存。您可以保留该缓存信息,并将其用于创建新的数据挖掘模型,或者您也可以删除该缓存信息,以节省存储空间。
  您可以使用新数据继续更新您的数据挖掘解决方案,或者如果您认为某一模型运行良好,则可以按原样部署该模型,并且从不向该模型添加新数据。
  SQL Server 2008 Analysis Services 还提供将数据分为定型数据集和测试数据集的功能,这样,您可以针对具有代表性的随机选择的数据集测试您的挖掘模型。
数据挖掘结构
  “数据挖掘结构”是一种逻辑数据结构,它定义据以生成挖掘模型的数据域。单个挖掘结构可以支持多个共享同一个域的挖掘模型。通过将数据的百分比或数量指定为 HOLDOUT,数据挖掘结构还可以分区为定型集和测试集。定义数据挖掘结构时可自动执行该分区操作。
  数据挖掘模型
  “数据挖掘模型”是对数据、数据挖掘算法和影响所用数据以及数据处理方式的参数和筛选器设置集合进行组合。您可以在 BI Development Studio 中使用数据挖掘扩展插件 (DMX) 语言或数据挖掘向导来定义数据挖掘模型。有关如何使用数据挖掘向导的详细信息,请参阅数据挖掘向导(Analysis Services - 数据挖掘)。
  定义完挖掘模型的结构之后,您需要对其进行处理,并使用说明模型的模式来填充空结构。这称为“定型”模型。通过传递原始数据,可以借助数学算法查找模式。您可以使用参数调整每种算法。
  
  生成新的数据挖掘模型时,应进行预测以循环测试该模型,然后对该模型进行相应更改以改进结果。这些更改可能包括添加更多数据,或者更改模型的参数以使模型更符合数据。

   部署
  数据挖掘开发的最终目标是创建最终用户和分析人员进行预测和执行深入分析所使用的模型。因此,如果模型生成的结果满足您的要求,请将该模型部署到生产环境中。在生产环境中,根据您的需求,挖掘模型可用于各种目的。下面的列表提供了一些可以使用数据挖掘模型执行的任务示例:
  使用模型创建预测,然后可以使用这些预测作出业务决策。SQL Server 提供可用于创建预测查询的 DMX 语言,同时还提供有助于生成查询的预测查询生成器。
  直接将数据挖掘功能嵌入到应用程序。您可以包括分析管理对象 (AMO) 或一个包含一组对象(应用程序可使用这组对象创建、更改、处理以及删除挖掘结构和挖掘模型)的程序集。另外,可以直接将 XML for Analysis (XMLA) 消息发送到 Analysis Services 实例。
  使用 Integration Services 创建一个包,在这个包中,挖掘模型用于自动将传入数据分离到多个表中。例如,如果数据库不断地通过潜在客户进行更新,则可以结合使用挖掘模型和 Integration Services 将传入数据拆分为可能购买产品的客户和不可能购买产品的客户。
  创建可让用户直接对现有挖掘模型进行查询的报表。用户可能希望创建不同的预测,或者分析人员可能希望直接访问挖掘模型内容,以浏览数据中的相关模式。
  更新模型是部署策略的一部分。随着组织传入的数据不断增多,必须重新处理模型,以便提高效用。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP