第一部分是绪论,概述了数据挖掘的基本理论及应用。
第二部分重点介绍模糊关联规则,首先进行关联规则概述,然后阐释分别介绍布尔型关联规则和数量型关联规则,介绍布尔型关联规则的同时阐释了经典算法Apriori,在数量型关联规则的基础上引入了模糊关联规则的概念,并对基于AprioriTid算法的模糊关联规则算法FAMA进行了重点分析。
第三部分介绍聚类确定隶属度函数的方法,介绍了聚类技术和K_Means算法,并介绍了根据聚类中心确定隶属度函数的方法。
第四部分是算法在学生成绩数据上进行详细的实验分析及在私人银行数据中的简单的应用实践。
第五部分是总结与展望,总结一下本文所做的研究和实验工作以及取得的成果,同时回顾实践过程中遇到的问题和不足,给出进一步改进的研究方向。
2 模糊关联规则
2.1 关联规则的基本理论
关联规则(Association Rule)是很多学者在数据挖掘的领域内研究的重点方向,是用来发现隐藏在数据中项集与项集间令人感兴趣的有价值的频繁的关联的技术方法[4]。R.Agrawal等人在对超市的购物篮问题进行分析时第一次提出该概念,以便用来发现隐藏在商品销售的历史交易数据中的顾客购买各种商品的偏好和模式,从而让超市更好地进行商品销售的决策[4, 6]。下面将对事务数据库进行关联挖掘时所涉及到的定义和概念进行一个宏观整体的介绍。文献综述
事务数据库 已经给定,我们用 来表示事物数据库 中包含的所有项的集合,数据库 中包含的所有事务的集合则用 来表示,事务中包含的项集由 中的子集组成。项集的支持度是衡量某关联规则有意义与否的一个非常重要的概念,含义是数据库D中有多少条事务包含了给定的项集,表示方法为: 。 用来表示关联规则,X和Y分别指的是规则的前件和后件,其中 , 。我们把支持度和置信度作为衡量关联规则有趣与否或有意义与否的重要指标:数据库中包含 的事务比上所有的事务得出支持度,而置信度则是用数据库中包含的 的事务比上包含X的事务来表示[4]。符合 的项集是频繁项集,符合 和 要求的规则叫做强关联规则,其中我们把minsup和minconf称作支持度和置信度的阈值。
2.2 布尔型关联规则和Apriori算法
1.布尔型关联规则
通常把属性取值只有1或0的规则称作布尔型关联规则。布尔型关联规则的支持度和置信度这样定义: