发明名称 |
数据匿名方法和系统 |
摘要 |
提供了一种数据匿名方法和系统。该数据匿名方法包括:对数据中的文本类型的属性值进行文本分析;根据文本分析结果,将数据中的文本类型的属性值替代为数值类型或者类别类型的属性值;以及对其中的文本类型的属性值已经替代为数值类型或者类别类型的属性值的数据进行匿名处理。本发明可以使包括文本类型的属性值的数据在匿名处理后,不但能防止基于属性值的隐私泄露而且仍然具有使用价值。 |
申请公布号 |
CN102542209B |
申请公布日期 |
2015.03.11 |
申请号 |
CN201010613260.8 |
申请日期 |
2010.12.21 |
申请人 |
日电(中国)有限公司 |
发明人 |
赵彧;李建强;刘博 |
分类号 |
G06F21/60(2013.01)I |
主分类号 |
G06F21/60(2013.01)I |
代理机构 |
北京东方亿思知识产权代理有限责任公司 11258 |
代理人 |
李晓冬 |
主权项 |
一种数据匿名方法,包括:对数据中的文本类型的属性值进行文本分析;根据文本分析结果,将所述数据中的所述文本类型的属性值替代为数值类型或者类别类型的属性值;以及对其中的所述文本类型的属性值已经替代为所述数值类型或者类别类型的属性值的所述数据进行匿名处理;其中对所述文本类型的属性值进行文本分析的处理包括:通过对所述文本类型的属性值进行相似性分析,获取所述文本类型的属性值之间的相似性度量值,并且其中,将所述数据中的所述文本类型的属性值替代为数值类型或者类别类型的属性值的处理包括:根据隐私保护需求设置聚类参数K,K为正整数,根据所述文本类型的属性值之间的相似性度量值对所述文本类型的属性值进行聚类,以将所述文本类型的属性值分成K个属性值组,将每个属性值组中的所述文本类型的属性值替代为相同的数值类型或者类别类型的敏感属性值。 |
地址 |
100084 北京市海淀区中关村东路清华科技园1号创新大厦A座11层 |