数据挖掘中聚类分析算法研究 9
人们将数据看作形成知识的源泉,原始数据可以是结构化的,如关系数据库中
的数据;也可以是半结构化及非结构化的,如图像数据、文本;甚至是分布在网
络上的异构数据。发现知识的方法可以是数学的、非数学的、归纳的和演绎的。
发现的知识可以用于查询优化、信息管理、决策支持和过程控制等,还可以进行
数据自身的维护。它把人们对数据的应用从低层次的简单查询提升到从数据库中
挖掘知识,提供决策支持【18】。
2.2数据挖掘的目的
数据挖掘并不专用于某些特定领域,它需要使用各种技术寻找可能隐藏在数据
中的知识。一般情况下,应用数据挖掘技术是为了实现以下三种目的【191:
(1)发现知识:知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式
和关联。例如,在商业应用中数据挖掘可用于发现分割、分类、关联、喜好四种
知识。发现分割知识可以将客户记录分组,策划为客户度身定做的推销活动。发
现分类知识可以将输入的数据分配到预定义的类别中,发现和理解趋势以及对文
本文档进行分类等。发现关联知识可以帮助我们发现交叉销售的机会。发现大部
分客户的喜好知识,也可以投其所好,促进商品的销售。
(2)使数据可视化:分析人员需要搞清楚数据库中存储的大量信息的含义。在做
任何分析之前,需要先将待处理的数据人性化,并寻找显示数据的好方法。
(3)N正数据:在大型的数据库中,数据库的数据通常是不完整的,而且一般包
含错误和自相矛盾的信息。数据挖掘需要以最稳定的方法识别和纠正这些问题。
2.3数据挖掘的分类
数据挖掘是-I”1交叉学科,受多个学科的影响,包括数据库系统、统计学、机
器学习、可视化和信息科学等。此外数据挖掘方法使用了大量其他学科的技术,
如神经网络、模糊逻辑、粗集理论、知识表示、归纳逻辑程序设计或高性能计算
熊It9]
可0
10 扬州大学工程硕士学位论文
由于数据挖掘源于多个学科,因此数据挖掘研究就产生了大量的、各种不同类
型数据挖掘系统。这样就需要对数据挖掘系统给出一个清楚的分类。这种分类可
以帮助用户区分数据挖掘系统,确定最适合其需要的数据挖掘系统。根据不同的
标准,数据挖掘系统可以分类如下【25j:
(1)根据数据库类型分类
数据挖掘所基于的数据库类型有:关系型、事务型、面向对象型、推论型
(deductive)、空间型、时序型、多媒体型、异质型(heterogeneous)、主动型(active)、
遗留型(1egacy)、文本挖掘和基于网络信息的挖掘等【201。
(2)根据得到的知识分类
包括关联规则、特征规则、分类规则、判别(discriminate)规则等的挖掘和聚类、
演变(evolution)分析、偏差(deviation)分析、孤立点分析和相似性分析等,此外根据
所挖掘的知识的抽象层次进行划分,可以包括原始层知识(在原始数据层)、多层次
知识和高层次知识的数据挖掘。
(3)根据所采用的技术分类
人工神经网络【21】:它从结构上模仿生物神经网络,是一种通过训练来学习的非
线性预测模型。可以完成分类、聚类和特征挖掘等任务。
决策树‘26】:用树型结构来表示决策集合。这些决策集合通过对数据集的分类产
生规则,典型的决策树方法有分类回归树(CART)、C4.5等,其典型应用为分类规
则的挖掘。
遗传算法【27l:是一种新的优化技术,基于生物进化概念设计了一系列的过程来
达到优化的目的。这些过程有基因组合、交叉、变异和自然选择等。遗传算法易
于并行计算,并且已经应用于分类和其他优化问题。
粗集理论【22l:它是一种研究不确定性问题的数学工具,作为集合论的扩展,主
要用于研究不完全和不完整信息描述的数据挖掘技术。可以用于分类,进行特征
归约和最小属性子集归约。
最近邻技术‘29l:通过K个与之相近的历史记录的组合来辨别新的记录,也称为
K.最近邻技术。主要应用于分类、聚类和偏差分析等。