数据挖掘是从大型数据集中发现可行信息的过程。数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常,由于这些模式的关系过于复杂或涉及数据过多,因此使用传统数据浏览无法发现这些模式。
这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。挖掘模型可以应用于特定的业务方案,例如:
◆ 预测销售额
◆ 向特定客户发送邮件
◆ 确定可能需要搭售的产品
◆ 查找客户将产品放入购物车的顺序序列
生成挖掘模型是大型过程的一部分,此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义:
◆ 定义问题
◆ 准备数据
◆ 浏览数据
◆ 生成模型
◆ 浏览和验证模型
◆ 部署和更新模型
以下关系图说明过程中每个步骤之间的关系,以及 Microsoft SQL Server 2008 中可用于完成每个步骤的技术。
尽管关系图中所示的过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。或者,您可以生成数个模型,但随后发现这些模型无法充分地回答定义的问题,因此必须重新定义问题。您可能必须在部署模型之后对其进行更新,因为又出现了更多的可用数据。可能需要多次重复过程中的每个步骤才能创建良好的模型。
SQL Server 2008 提供用于创建和使用数据挖掘模型的集成环境,称为 Business Intelligence Development Studio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。
创建数据挖掘解决方案后,您可以使用 SQL Server Management Studio 维护和浏览该解决方案。
定义问题
与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。
该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题:
◆ 您在查找什么?您要尝试找到什么类型的关系?
◆ 您要尝试解决的问题是否反映了业务策略或流程?
◆ 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联?
◆ 您要尝试预测数据集的哪个属性?
◆ 列如何关联?或者如果有多个表,则表如何关联?
◆ 如何分发数据?数据是否具有季节性性质?数据是否可以准确反映业务流程?
1
内容导航