1.2 数据挖掘的特点
数据挖掘的特点如下:
1.凭借数据挖掘技术,在大量的信息中发觉用户感兴趣的信息;
2.要处理大量的数据;
3.及时对数据的变化做出响应;
4.数据挖掘不仅要发现存在但还没发现的规则,还要去管理并文护规则,随着新数据的不断更新规则也不断更新;
5.数据挖掘规则的发现是在统计规律的基础上,这些规则不必适用于全部的数据。
1.3数据挖掘的步骤
数据挖掘(Data Mining),也可以称之为数据库中的知识发现[2](Knowledge Discovery in Database),就是在大量的数据中提出有用的知识,发现知识的过程,由以下几方面组成:
(1)数据清理(清除噪音或不相同数据);
(2)数据集成(可以把多种数据源组合到一起);
(3)数据选择(把与任务相关的数据从数据库中提取出来并分析);
(4)数据变换(把数据变换成适合挖掘的形式;如通过汇总或聚集操作);
(5)数据挖掘(基本步骤,使用智能方式得到数据模式);
(6)模式评估(基于某种兴趣度度量,识别真正有趣的提供知识的模式);
(7)知识表示(使用知识表示技术和可视化,提供挖掘的知识给用户)。
2.关联规则
2.1关联规则概念
关联规则表示数据库中一组对象之间某种关联关系的规则[3],数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,那么就称它为关联,关联可以分为因果关联、简单关联、时序关联。从大型数据中找出隐藏的属性之间存在的关联和规律是关联分析的目的。有时数据库中数据的关联函数并不是已知的,即便知道也是不确定的,所以关联分析生成的规则带有可信度[4]。
设 为数据项集合, 为与任务相关的交易数据库,其中的每一个交易 是一个数据项子集,即 ,每一条交易记录存在一个识别编号 。 为数据项集合,当且仅当 时,称交易 包含 [5]。
定义1:关联规则是如下形式的蕴涵式:
(p1,p2,……,pn)→(q1,q2,……,qm)其中,(p1,p2,……,pn) I,(q1,q2,……,qm) I,且(p1,p2,……,
pn)∩(q1,q2,……,qm)=ф。令蕴涵式左部的(p1,p2,……,pn)定义的项集为B,蕴涵式右部定义的项集为H,G=H∪B表示同时包含B和H的项集。
定义2:支持度S=G/D=P(G),表示在总的事务D中B和H同时存在所占的比例;
定义3:置信度C=G/B=P(G B),表示在项集B发生时项集H亦发生的比例;
定义4:如果在交易数据库中存在比例的交易记录满足“若包含A就包含B条件”,称关联规则A B具有c置信度,描述为:confidence(A B)=P(B/A),最小置信度记为min-conf。强关联规则就是既满足最小支持度又最小置信度的关联规则。
2.2关联规则的几个度量值
现实生活中,关联规则应用的例子很多。零售业是关联规则应用的主要领域,其中“啤酒和尿布”的关联发现就是一个比较典型的案例:通过对交易数据分析后,数据挖掘人员发现这样的一条关联规则:买啤酒的顾客中有近八成也买了尿布。深入调查又发现,原来是有父亲在给自己买啤酒的同时,也常会为自己刚出生的孩子购买尿布[6]。发现了这一规律,商场工作人员便可以及时调整摆放货物的位置和结构,使顾客购买更方便。
一个关联规则的特性一般用四个参数来描述:
(1)支持度:关联规则的支持度是交易集中同时包含X和Y的交易数与所有交易数之比,记为Sup(X→Y)=P(X∪Y)。反映了X和Y中所含的项在事务集中同时出现的频率。如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了啤酒和尿布,那么上述的关联规则的支持度就是10%。
- 上一篇:MedWin+AT89C51单片机武器射击记录仪设计+PCB图纸
- 下一篇:AT89S52单片机的家庭智能浇花器设计+源程序
-
-
-
-
-
-
-
河岸冲刷和泥沙淤积的监测国内外研究现状
乳业同业并购式全产业链...
十二层带中心支撑钢结构...
酸性水汽提装置总汽提塔设计+CAD图纸
杂拟谷盗体内共生菌沃尔...
当代大学生慈善意识研究+文献综述
大众媒体对公共政策制定的影响
中考体育项目与体育教学合理结合的研究
java+mysql车辆管理系统的设计+源代码
电站锅炉暖风器设计任务书