3.2.1 关联规则相关理论
3.2.1.1 频繁模式概念
频繁模式(Frequent pattern)是频繁的出现在数据集中的模式(如项集、子序列或子结构)。例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合石频繁项集。一个序列,如首先购买个人电脑,然后是数码相机,再后是内存卡,如果它频繁地出现在购物历史数据库中,则是一个频繁序列模式。子结构可能涉及不同的结构形式,如子图、子树或子格,它可能与项集或子序列结合在一起。如果一个子结构频繁地出现,则称为频繁结构模式。对于挖掘数据之间的关联、相关和许多其他有趣的联系,发现这种频繁模式起着至关重要的作用。此外,对数据分类、聚类和其他数据挖掘任务也有帮助。因此,频繁模式的挖掘就成为了一项重要的数据挖掘任务和数据挖掘研究关注的主题之一。
3.2.1.2 关联规则概念
定义3.1 设 是项的集合。设任务相关的数据 是数据库事务的集合,其中每个事务 是项的集合,使得 。每一个事务有一个标识符,称作TID。设 是一个项集,事务 包含 当且仅当 。关联规则是形如 的蕴涵式,其中 , ,并且 。
如果 中有 %的事务包含 ,则称关联规则 在事务数据库 中具有大小为 %的支持度,它是概率 。即: 肺癌中医治疗特点的数据挖掘研究+文献综述(8):http://www.751com.cn/jisuanji/lunwen_3678.html