随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。[1][2][3]
目前,数据挖掘的主要研究领域为数据总结、分类、聚类、关联规则等方面。关联规则表示数据库中一组对象之间某种关联关系的规则。例如,关联规则可以表示为“购买了项目A的顾客中有80%的人又买了项目B”。从这些规则可找出顾客购买行为模式,可以应用于商品货架设计、生产安排、针对性的市场营销等。采用关联模型比较典型的例子是“蛋糕和饮料”的故事。在英国,一些小孩经常到超市去本文来自辣~文\论|文/网,
毕业论文 www.751com.cn 加7位QQ324'9114找源文 买蛋糕,超市经过对顾客的购物信息进行挖掘,发现在购买蛋糕的小孩中,有80%-85%的小孩同时要买一些饮料。超市随后调整了货架的摆放,把蛋糕和饮料放在一起。结果是:销售额明显增加了。这就是数据挖掘的关联规则带来的商业价值。
目前见到的专门讨论数掘挖掘技术在商业系统中的应用的论著还很少。目前主要集中在单独应用数掘挖掘对公司的数据库进行针对性的分析,很少有实际数据挖掘产品应用到商业系统中的零售业,为商业系统中的零售业进行深入的销售、客户分析,来达到量体裁衣,所以数据挖掘技术将会在商业领域的研究成为一大课题。
1.数据挖掘和其关联规则
1.1 概论
数据挖掘,是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知且潜在有用的、便于人们理解的、对实验数据和新增数据能够确定有效结果的、也是新奇的一种有价值的模式。而数据关联是数据库中存在的这样一类重要的可被发现的知识。若两个或多个变量元素的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;提出各种变体,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。[4]
最近也有独立于Agrawal的频集方法的工作,以避免频集方法的一些缺陷,探索挖掘关联规则的新方法。也有一些工作注重于对挖掘到的模式的价值进行评估,他们提出的模型建议了一些值得考虑的研究方向。
现在面临一个尴尬的境地——数据颇为丰富,而有效数据偏少。快速增长的海量数据,已经远远的超过了人们的理解能力,如果不借助强有力的工具,很难弄清大堆数据中所蕴含的知识。结果,重要决策只是基于制定决策者的个人经验,而不是基于信息丰富的数据。数据挖掘就这样应运而生,数据挖掘填补了数据和信息之间的鸿沟。
上一页 [1] [2] [3] [4] 下一页
Apriori算法数据挖掘中关联规则算法的研究及应用 第2页下载如图片无法显示或论文不完整,请联系qq752018766