2.2.2基于集中式数据集的关联规则隐藏算法
建设平潭岛自由贸易区的可行性分析基于集中式数据集的关联规则隐藏算法通常采用的是启发式技术,主要方法是对原始数据集进行清洗,降低敏感规则的支持度和置信度,或者是降低生成敏感规则的项集的支持度。对数据集常用的清洗方法有数据扰乱和数据阻塞,它们二者的不同之处在于对关键阈值的处理,数据扰乱方法是将关键阈值降低到某一个值以下,而数据阻塞是将关键阈值转换为一个区间。另外集中式数据集上也有基于数据集重构技术的规则隐藏算法,其主要思想是:在已经剔除敏感规则的规则集合上重新构造新的数据集,新的数据集和原数据集是完全不同的两中数据集。
采用数据扰乱技术比较著名的算法是MASK,下面简单介绍这个算法本文来自辣&文*论~文'网,
毕业论文 www.751com.cn 加7位QQ324,9114找源文:
MASK算法是由Rizvi学者利用贝努利概率模型提出,主要应用于购物篮事务数据集。该数据集的列由商品名组成,行表示每位顾客购物行为,是1和0的字符串。其中1表示购买,0表示未购买。算法的主要思想用概率方法改变数据的原始值,使得项目值以概率p保持不变,以1- p的概率取反。若项目从1变成0,则相当于删除项目 ;反之,则为添加噪声项目。其实质是对数据集中的项目以一定概率进行增删或保持不变,从而对原数据集的信息进行了保护,由于发现关联规则必须首先获得频繁项目集,因此需对项目集的支持度进行重构(并非重构项目的实际值),估算项目实际支持度,从而发现频繁项目集。
MASK算法采用的基本策略是数据干扰,该方法通过数据干扰和支持度重构实现了隐私保护的关联规则挖掘。但MASK方法也存在数据干扰策略的不足,变换后的所有数据均与真实的原始数据直接相关,使得对隐私数据的保护程度并不理想。而且MASK算法使用唯一的参数p对数据集进行干扰,不可避免地使隐私性和准确性成为一对矛盾。例如:当概率p接近0或1时,隐私保护度接近于0,方法的隐私性很差;在概率p从0或1逐渐接近于0.5过程中,隐私保护度在不断地提高,但挖掘结果的准确性却显著的降低。
3.关联规则隐藏算法的评估
数据库中敏感关联规则隐藏算法还处于研究的发展阶段,到目前为止还没有一个能对各种数据集进行有效隐藏的算法,当前的算法大都是针对特定的数据集设计的,因此没有一个能对每一种算法性能进行准确评估的具体标准。但总体上来说,可从以下几个方面来对关联规则隐藏算法的性能进行评估。
3.1 算法效率
算法效率主要指隐藏敏感数据或敏感信息算法的运行时间。毋庸置疑,这是评价各种算法必须的重要指标。在数据量增大时,算法的运行时间的变化也是应该充分考虑的要素。站在隐私保护的角度,如何能够最大限度地防止入侵者非法获取隐私数据,对隐私进行有效的保护。在现有的算法中,保密是一个最基本的方面,各个算法都从不同的角度进行了实现。但是不同的算法都设定了一个特定的数据模型,而且更重要的是这些算法针对非法入侵者都进行了一个基本假定,即所有的非法入侵者都是采用同样的入侵手段来获得数据的。而实际中,这显然是理想化的。
电子病历的临床信息系统建设思路3.2 规则效能
规则效能是指在处理数据的时候,对原始信息的修改使得挖掘结果,也即最终得出的全局关联规则,与原始数据之间关系的匹配程度。规则效能其实反映的是挖掘结果的有效性、可用性。很多算法是用了混乱或者相似的技术对原有数据进行了“净化” ,主要是针对其中的隐私数据进行了处理。这样,处理后的数据如果经过挖掘得出的是错误的,或者说不能反映真实状况的规则,那么原有的数据也就失去了价值,而这样处理数据的算法也同样失去了效用。因而在考虑保护个人隐私的同时,算法还要能在整体上反映出规则联系。
上一页 [1] [2] [3] [4] [5] 下一页
数据库中敏感关联规则隐藏算法研究数据挖掘+流程图 第4页下载如图片无法显示或论文不完整,请联系qq752018766