数据挖掘能从数据库的大量数据中揭示出隐含的、先前未知的、潜在的有用信息,这些信息可以用来检测异常模式、欺诈行为,但同时也可能成为个人隐私和公民自由的威胁。近年来,随着数据挖掘技术和相关应用的发展,数据挖掘所带来的对隐私或数据安全的威胁引起人们越来越多的重视,许多研究人员开始对挖掘中触犯隐私的问题进行了研究,特别是对于关联规则挖掘的隐私保护方面已经相继提出了许多解决的策略和方法,因为这是新起的一门研究领域,又有较好的应用前景和研究价值,参考国内外相关研究资料,在本文中我对该方面进行了较深入的探讨,并做了详细工作。
1.课题研究本文来自辣&文*论~文'网,
毕业论文 www.751com.cn 加7位QQ324,9114找源文
1.1关联规则隐藏的研究背景
随着科技的进步,技术的发展,特别是信息产业的发展,我们进入了一个崭新的信息时代。网上银行、条形码和信用卡的普及和使用,进一步加速了商业、金融业、保险业等领域的快速发展。最近几年来,数据库中存储的数据信息量急剧增大,致使数据库的规模日益庞大。与此同时,大容量、高速度、低价格的存储设备也相继问世。在信息时代,大量信息在给人们带来方便的同时,也带来了一系列问题,比如,信息量过大,超过了人们接受、理解和运用的能力。另一方面,人们意识到发布的信息可能给人们的隐私带来威胁。面对海量数据库和大量繁杂信息,如何对某些信息进行隐藏来保护人们的隐私,由此引发了一个新的研究方向:关联规则隐藏。
关联规则隐藏算法
2.1关联规则介绍
关联规则定义:首先由Agrawal等人在1993年的SIGMOD会议上提出,具体可描述为:设I= { i1, i2,…, im}是项的集合;DB是一个事务数据库,其中每个事务T是项的集合,每个事务有一个标识符TID。一个项目的集合称为项集,在一个项集中项目的数量称为项集的长度,一个长度为k的项集称为k-项集。设X为一个项集。如果项集XT且XI,则称事务T包含X。关联规则是形如XY的蕴涵式,其中XT,YT,且XY=。
支持度:用于度量一个项集的出现频率。项集{A,B}的支持度是由同时包含A和B的事务总个数所组成的。可表示为:P(A∪B)。
大学生手机使用情况调查问卷表置信度: 是关联规则的属性规则AB的概率是使用{A}的支持度除项集{A,B}的支持度来计算的。可表示为:P(B|A) 。
上一页 [1] [2] [3] [4] [5] 下一页
数据库中敏感关联规则隐藏算法研究数据挖掘+流程图 第2页下载如图片无法显示或论文不完整,请联系qq752018766