发明名称 一种模式信息损失最小化的序列类数据隐私保护方法
摘要 本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集,在此基础上选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型,基于k匿名技术,对时间序列的QI属性值和模式特征施加(k,P)匿名模型,该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布,在保证数据隐私的基础上,将时间序列的模式信息最小化,保证数据的可用性。(k,P)匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制,其完善性和有效性使得(k,P)匿名模型能够在最大程度上博得信赖,获得广泛应用。
申请公布号 CN101964034B 申请公布日期 2012.08.15
申请号 CN201010298698.1 申请日期 2010.09.30
申请人 浙江大学 发明人 陈珂;寿黎但;陈刚;胡天磊;尚璇
分类号 G06F21/00(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F21/00(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 林怀禹
主权项 一种模式信息损失最小化的序列类数据隐私保护方法,其特征在于该方法的步骤如下:1)建立一个广义的时间序列模式定义模型,根据这个模型以及实际应用的模式挖掘任务需求,选择符合实际应用需求的模式定义函数集;2)根据步骤1)中提出的模式定义函数集,确定模式映射函数,时间序列的属性分为标识属性,联合标识属性和敏感属性三种,时间序列的模式特征由模式映射函数基于联合标识属性来进行提取;3)根据时间序列的属性值以及时间序列的模式特征,定义隐私攻击类型,构建(k,P)匿名模型以保护时间序列数据隐私;4)根据上述步骤2)中所述的时间序列的模式特征,衡量整个原始数据集中任意两条时间序列之间的模式相似性,构建P子组,以达到模式信息损失最小化的效果;5)基于步骤4)中形成的P子组,分析任意两个P子组之间的联合标识属性值的相似性,以自底向上的聚类方式对P子组进行聚类,形成k匿名组,使得原始数据集最终满足(k,P)匿名模型的要求;6)定义(k,P)匿名模型的信息损失衡量策略,并分析其隐私泄露概率,完成对(k,P)匿名模型的可用性评估,同时根据分组结果,对时间序列数据进行属性值的泛化,完成数据发布;步骤3)中构建的(k,P)匿名模型是一个双层隐私保护模型,其具体含义如下:a)在第一层约束中,整个原始数据集被要求在联合标识属性上满足k匿名的条件;b)在第二层约束中,在每一个k匿名组内的每一个P子组中,所有的时间序列都具有相同的模式特征。
地址 310027 浙江省杭州市西湖区浙大路38号