发明名称 数据匿名化装置和方法
摘要 本发明提出了一种数据匿名化装置和方法,包括:距离计算单元,用于计算多个数据记录之间的距离;全连接图构建单元,用于将每个记录作为顶点,将所有顶点两两连接,并使用记录之间的距离作为相应顶点之间的边的权重,来构建包含所有记录的全连接图;边去除单元,用于根据各个边的权重,顺序地去除边,以将全连接图划分成多个树,使得每个树包含至少k个顶点;大树分解单元,用于对顶点数目大于2k-1的树进一步分解,以使分解后的每个子树包含的顶点的数目大于等于k并小于等于2k-1;泛化单元,用于对最终获得的每个树中所有顶点对应的记录进行泛化,使得无法区分该树中的各个记录。本发明的数据匿名化装置和方法采用全局优化机制,进一步降低了信息损失。
申请公布号 CN102314565A 申请公布日期 2012.01.11
申请号 CN201010222564.1 申请日期 2010.07.02
申请人 日电(中国)有限公司 发明人 李建强;赵彧;刘博
分类号 G06F21/00(2006.01)I 主分类号 G06F21/00(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 李敬文
主权项 一种数据匿名化装置,包括:距离计算单元,用于计算多个数据记录中每两个记录之间的距离;全连接图构建单元,用于将每个记录作为顶点,将所有顶点两两连接,并使用记录之间的距离作为相应顶点之间的边的权重,来构建包含所有记录的全连接图;边去除单元,用于根据各个边的权重,顺序地去除边,以将记录图划分成多个树,使得每个树包含至少k个顶点,k是给定的自然数;大树分解单元,用于对顶点数目大于2k 1的树进行分解,以使分解得到的每个树包含的顶点的数目大于等于k并小于等于2k 1;泛化单元,用于对最终获得的每个树中所有顶点对应的记录进行泛化,使得无法区分该树中的各个记录。
地址 北京市海淀区学院路35号世宁大厦20层