发明名称 基于抽样泛化路径的K‑Anonymity数据处理方法
摘要 本发明公开了一种基于抽样泛化路径的K‑Anonymity数据处理方法,涉及数据处理技术领域。本发明提出了一种基于抽样路径的局域繁花算法——SPOLG算法,该算法基于泛化节点格寻找信息损失较小的泛化路径,为减少寻径时间,引入等概率抽样的思想,选用等概率抽样中的系统抽样方法进行取样,利用样本代替数据集在泛化格上寻找目标泛化路径,最后在该路径上对数据集进行泛化。此外,使用局域泛化技术能够降低信息损失量,提高发布数据集的可用性。实验结果证明,本方法匿名化的数据集信息损失度低,数据可用性高。
申请公布号 CN106096445A 申请公布日期 2016.11.09
申请号 CN201610411762.X 申请日期 2016.06.12
申请人 徐州医科大学 发明人 吴响;俞啸;袁洋;臧昊
分类号 G06F21/62(2013.01)I 主分类号 G06F21/62(2013.01)I
代理机构 南京钟山专利代理有限公司 32252 代理人 李小静
主权项 一种基于抽样泛化路径的K‑Anonymity数据处理方法,其特征在于:通过算法SPOLG(T,QI,k,α)匿名化数据表,T表示待抽样数据集;α表示抽样率,QI为准标识符集,k为匿名隐私约束条件常数;具体步骤如下:1)利用函数sample(T,α)抽取样本,另T'=sample(T,α),T'表示抽样数据集,具体过程如下:11)将数据集中的N条元组进行编号;12)将编号按间隔<img file="FDA0001015583760000011.GIF" wi="243" he="119" />进行分段,其中L∈N;13)在第一段随机选取编号l,其中l∈N,l≤L;14)num=T×α,并对num取整;15)按照以下规则抽取样本T':l,l+L,l+2L,l+3L...,l+num×L;16)返回T';2)利用函数path(QI,T')寻找抽样泛化路径,另P=path(QI,T'),P表示所得抽样路径,具体过程如下:21)通过QI形成泛化格G;22)将泛化格G的第0层节点n<sub>0</sub>作为路径P的起点P<sub>0</sub>;23)通过泛化格找到n<sub>1</sub>直接泛化的节点,计算这些节点泛化T'所得到的信息损失量,选出泛化数据集T'信息损失量最小的节点n<sub>2</sub>作为路径P的第二个节点P<sub>1</sub>;24)重复步骤22)直至到达泛化格G的顶点n<sub>i</sub>作为路径的终点P<sub>i</sub>得到路径P;25)返回路径P;3)T”=φ;T”存放泛化后的数据集;4)queue=φ,把路径P中第i个节点赋值给queue,进入以下循环:D=φ;D存放本步骤泛化的数据;基于queue对数据表T进行泛化;D={泛化后满足k‑匿名的元组};T”∪D;移除T中满足k‑匿名的元组;结束循环;5)返回数据表T”。
地址 221004 江苏省徐州市铜山路209号