基于抽样泛化路径的K‑Anonymity数据处理方法,申请号CN201610411762.X-传众专利搜索

发明名称	基于抽样泛化路径的K‑Anonymity数据处理方法
摘要	本发明公开了一种基于抽样泛化路径的K‑Anonymity数据处理方法，涉及数据处理技术领域。本发明提出了一种基于抽样路径的局域繁花算法——SPOLG算法，该算法基于泛化节点格寻找信息损失较小的泛化路径，为减少寻径时间，引入等概率抽样的思想，选用等概率抽样中的系统抽样方法进行取样，利用样本代替数据集在泛化格上寻找目标泛化路径，最后在该路径上对数据集进行泛化。此外，使用局域泛化技术能够降低信息损失量，提高发布数据集的可用性。实验结果证明，本方法匿名化的数据集信息损失度低，数据可用性高。
申请公布号	CN106096445A	申请公布日期	2016.11.09
申请号	CN201610411762.X	申请日期	2016.06.12
申请人	徐州医科大学	发明人	吴响;俞啸;袁洋;臧昊
分类号	G06F21/62(2013.01)I	主分类号	G06F21/62(2013.01)I
代理机构	南京钟山专利代理有限公司 32252	代理人	李小静
主权项	一种基于抽样泛化路径的K‑Anonymity数据处理方法，其特征在于：通过算法SPOLG(T,QI,k,α)匿名化数据表，T表示待抽样数据集；α表示抽样率，QI为准标识符集，k为匿名隐私约束条件常数；具体步骤如下：1)利用函数sample(T,α)抽取样本，另T'＝sample(T,α)，T'表示抽样数据集，具体过程如下：11)将数据集中的N条元组进行编号；12)将编号按间隔<img file="FDA0001015583760000011.GIF" wi="243" he="119" />进行分段，其中L∈N；13)在第一段随机选取编号l,其中l∈N,l≤L；14)num＝T×α，并对num取整；15)按照以下规则抽取样本T'：l，l+L,l+2L,l+3L...,l+num×L；16)返回T'；2)利用函数path(QI,T')寻找抽样泛化路径，另P＝path(QI,T')，P表示所得抽样路径，具体过程如下：21)通过QI形成泛化格G；22)将泛化格G的第0层节点n<sub>0</sub>作为路径P的起点P<sub>0</sub>；23)通过泛化格找到n<sub>1</sub>直接泛化的节点，计算这些节点泛化T'所得到的信息损失量，选出泛化数据集T'信息损失量最小的节点n<sub>2</sub>作为路径P的第二个节点P<sub>1</sub>；24)重复步骤22)直至到达泛化格G的顶点n<sub>i</sub>作为路径的终点P<sub>i</sub>得到路径P；25)返回路径P；3)T”＝φ；T”存放泛化后的数据集；4)queue＝φ，把路径P中第i个节点赋值给queue，进入以下循环：D＝φ；D存放本步骤泛化的数据；基于queue对数据表T进行泛化；D＝{泛化后满足k‑匿名的元组}；T”∪D；移除T中满足k‑匿名的元组；结束循环；5)返回数据表T”。
地址	221004 江苏省徐州市铜山路209号