2.3 数据挖掘的主要方法与问题
(1)分类
即通过分析数据特点且按照一定规律对其进行划分。
(2)回归分析
回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。
(3)聚类
类似于分类,但将得到的数据按照相似性与差异性进行划分后,要尽可能地保证同组内数据相似度尽可能的高以及不同组数据相似度的低。
(4) 关联规则
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
(5) 特征
即将一组数据的所具有的特性归纳总结并提取出来,得到相应的特征式。
(6)变化和偏差分析
偏差分析是为了寻找观察结果与参照量之间有意义的差别。包括一些潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等。