2.3.2 (alpha,k)模型和P-模型 10
2.3.3 个性化匿名10
2.4 本章小结 11
3 一种K-匿名隐私保护模型12
3.1 隐私保护与信息损失12
3.2 基于分组的(p,α)-K匿名模型12
3.2.1模型要解决的问题12
3.2.2模型涉及的概念13
3.3算法思想16
3.4 本章小结19
4 基于分组的(p,α)-k匿名模型的具体实现20
4.1 准备工作20
4.1 实现分组20
4.3 分组泛化 24
4.4 信息损失24
4.5 本章小结29
结论 30
致谢 32
参考文献33
1 绪论
1.1 研究背景及意义
信息时代的到来,改变了人们传统的生活方式,也改变了人们的交流方式。人们不再只是口口相传,信息的共享成了他们收集信息的一种重要渠道。在这个信息共享的公共平台上,人们可以发布信息也可以获取自己所需要的信息。于是,信息发布成为了扩充可共享信息容量的重要方式。但随着社会的发展,人与人之间的关系越来越千丝万缕,部门与部门之间的联系越来越紧密,甚至企业与企业之间的合作也越来越多,造成发布的信息的种类逐渐变得多样,获取信息的使用者也变得越来越多方位,而其中不乏一些恶意攻击者,其意图不在于获得用户的一些可使用信息为用户服务,而是使用一些攻击手段获得用户的一些敏感信息(如手机号码、家庭住址、医疗档案、职业情况等),借此伤害用户的人身权益甚至利用此种信息敲诈用户。在这种背景下,数据发布中的隐私保护技术应运而生。该隐私保护技术旨在避免用户的一些标识身份的信息泄露,也旨在避免泄露一些用户不想让他人知道的敏感信息。
数据发布中的隐私保护技术是一种基于限制发布的技术,它可使数据发布者根据具体情况有条件的发布数据,如不发布数据的某些域值,数据泛化等等。Samarati和Sweeney提出的K-匿名模型正是基于抑制、泛化等技术对发布数据做一些条件限制,有效的做到了保护用户隐私。在此以后,K-匿名模型是隐私保护技术的一种热门技术,而随着用户的需要和实际情况的复杂性,K-匿名模型得到了越来越多的改进。而在以后,K-匿名也必定在数据发布的领域中成为一门越来越成熟的技术。源`自'751|.论"文-网[www.751com.cn
1.2 国内外研究现状
1.3 研究内容
本文针对k-匿名模型中无法抵御同质攻击的问题进行分析,主要的研究内容如下:1)总结归纳匿名化保护方法的研究成果,对已有的匿名模型进入深入研究,分析其具有的优点缺点。2)在k-匿名模型的研究上,充分考虑k-匿名模型只能抵御链接攻击,思考如何使匿名模型能够抵御同质攻击,并考虑敏感属性值在实际中的隐私保护程度,考虑敏感属性值具有的语义,尝试给不同的敏感属性值不同的隐私保护程度。3)充分考虑全局泛化带来的数据失真的现实,尝试将数据表分为若干组,在各个组内局部泛化。
1.4 论文组织结构
本文共分为3章。第1章为绪论,首先分析了数据隐私保护研究的背景及意义,然后深入分析了隐私保护技术和匿名化方法在国内外的研究现状,比较了在k-匿名模型基础上发展而来的各个匿名模型优缺点,最后介绍本文的研究内容和各章的组织结构。
第2章介绍了数据发布中可能遭遇的攻击类型,分析了攻击者的攻击手段,详细介绍了泛化和抑制技术,并简单介绍了k-匿名模型、 (alpha,k)模型、P-模型以及个性化匿名的定义和实现原理。
第3章首先分析了隐私保护与信息损失的关系,介绍了匿名化方法给数据带来的失真影响,然后提出了基于分组的(p,α)-k匿名模型,运用敏感属性分组降低数据被同质攻击攻击的可能性和运用局部泛化降低数据的信息损失。最后详细介绍了基于分组的(p,α)-k匿名模型的算法实现。论文网