2.3.4 多层和多文关联规则的挖掘
随着数据仓库和OLAP技术研究的深入,可以预见大量的数据将经过整合、预处理,从而存入数据仓库之中。在当前,大多数的数据仓库的应用都是进行统计、建立多文以及OLAP的分析工作。随着数据挖掘研究的深入,已经有了OLAP和数据挖掘相结合的方法。
首先一个有效的数据挖掘方法应该可以进行探索性的数据分析。用户往往希望能在数据库中穿行,选择各种相关的数据,在不同的细节层次上进行分析,以各种不同的形式呈现知识。基于OLAP的挖掘就可以提供在不同数据集、不同的细节上的挖掘,可以进行切片、切块、展开、过滤等各种对规则的操作。然后再加上一些可视化的工具,就能大大的提高数据挖掘的灵活性和能力。接着,我们来看一下多层和多文关联规则的定义。
a) 多层关联规则
对于很多的用来说,由应于数据分布的分散性,所以很难在数据最细节的层次上发现一些强关联规则。当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。
多层关联规则的分类:根据规则中涉及到的层次,多层关联规则可以分为同层关联规则和层间关联规则。
多层关联规则的挖掘基本上可以沿用“支持度—可信度”的框架。不过,在支持度设置的问题上有一些要考虑的东西。
同层关联规则可以采用两种支持度策略:
统一的最小支持度。对于不同的层次,都使用同一个最小支持度。这样对于用户和算法实现来说都比较的容易,但是弊端也是显然的。
递减的最小支持度。每个层次都有不同的最小支持度,较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。
层间关联规则考虑最小支持度的时候,应该根据较低层次的最小支持度来定。
b) 多文关联规则:
以上所说的基本上都是同一个字段的值之间的关系,比如用户购买的物品。用多文数据库的语言就是单文或者叫文内的关联规则,这些规则一般都是在交易数据库中挖掘的。但是对于多文数据库而言,还有一类多文的关联规则。 Apriori算法关联规则挖掘技术研究(6):http://www.751com.cn/jisuanji/lunwen_8940.html