发明名称 |
电子地图兴趣点数据冗余检测方法和系统 |
摘要 |
本发明实施例公开了一种冗余检测方法和系统。一种冗余检测方法,包括:对POI数据的名称进行二元切分,为切分的二元词建立倒排索引,并为POI数据根据倒排索引中的出现频率最低的词搜索相似POI数据;对搜索到的具有名称相似关系的POI数据,进行名称相似度计算和地址相似度计算;根据POI数据的名称相似度和地址相似度得到总相似度;将总相似度与预设的阈值比较,大于预设阈值的,判定对应POI数据为冗余数据。利用本发明,可以实现对电子地图POI数据中的冗余检测。 |
申请公布号 |
CN101388023B |
申请公布日期 |
2010.09.15 |
申请号 |
CN200810119849.5 |
申请日期 |
2008.09.12 |
申请人 |
北京搜狗科技发展有限公司 |
发明人 |
董正斌;张阔 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
逯长明 |
主权项 |
一种冗余检测方法,其特征在于,包括:对兴趣点POI数据的名称进行二元切分,为切分的二元词建立倒排索引,并为POI数据根据倒排索引中的出现频率最低的词搜索相似POI数据;对搜索到的具有名称相似关系的POI数据,进行名称相似度计算和地址相似度计算;根据POI数据的名称相似度和地址相似度得到总相似度;将总相似度与预设的阈值比较,大于预设阈值的,判定对应POI数据为冗余数据。 |
地址 |
100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 |