数据挖掘技术的三大技术支撑
数据挖掘技术有以下三大技术支撑:
(1)数据库。SQL统治数据库查询语言标准三十多年这一事实本身就与现在IT发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。
(2)人工智能技术。人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为,而在与数据仓库技术的结合上它可以发挥重要作用,这使得它转向数据挖掘技术。
(3)概率与数理统计。数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从SQL中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。[5]
1.3 关联规则的基本概念
在1993年,R.Agrawal等人首次提出了关联规则的概念。
支持度(support)和置信度(confidence)两个阈值是描述关联规则的两个重要概念,支持度反映关联规则在数据库中的重要性,置信度衡量关联规则的可信程度。如果某条规则同时满足最小支持度(min-support)和最小置信度(min- confidence),则称它为强关联规则。
1.4 关联规则的种类
我们将关联规则按不同的情况进行分类:
(1) 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多文关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“男”=>职业=“经理”,是布尔型关联规则;性别=“男”=>收入=3500,涉及的收入是数值类型,所以是一个数值型关联规则。
(2) 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
(3) 基于规则中涉及到的数据的文数,关联规则可以分为单文的和多文的。在单文的关联规则中,我们只涉及到数据的一个文,如用户购买的物品;而在多文的关联规则中,要处理的数据将会涉及多个文。换成另一句话,单文关联规则是处理单个属性中的一些关系;多文关联规则是处理各个属性之间的某些关系。例如:蛋糕=>饮料,这条规则只涉及到用户的购买的物品;性别=“男”=>职业=“总裁”,这条规则就涉及到两个字段的信息,是两个文上的一条关联规则。
上一页 [1] [2] [3] [4] 下一页
Apriori算法数据挖掘中关联规则算法的研究及应用 第3页下载如图片无法显示或论文不完整,请联系qq752018766