发明名称 电子地图兴趣点数据冗余检测方法和系统
摘要 本发明实施例公开了一种冗余检测方法和系统。一种冗余检测方法,包括:对POI数据的名称进行二元切分,为切分的二元词建立倒排索引,并为POI数据根据倒排索引中的出现频率最低的词搜索相似POI数据;对搜索到的具有名称相似关系的POI数据,进行名称相似度计算和地址相似度计算;根据POI数据的名称相似度和地址相似度得到总相似度;将总相似度与预设的阈值比较,大于预设阈值的,判定对应POI数据为冗余数据。利用本发明,可以实现对电子地图POI数据中的冗余检测。
申请公布号 CN101388023B 申请公布日期 2010.09.15
申请号 CN200810119849.5 申请日期 2008.09.12
申请人 北京搜狗科技发展有限公司 发明人 董正斌;张阔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明
主权项 一种冗余检测方法,其特征在于,包括:对兴趣点POI数据的名称进行二元切分,为切分的二元词建立倒排索引,并为POI数据根据倒排索引中的出现频率最低的词搜索相似POI数据;对搜索到的具有名称相似关系的POI数据,进行名称相似度计算和地址相似度计算;根据POI数据的名称相似度和地址相似度得到总相似度;将总相似度与预设的阈值比较,大于预设阈值的,判定对应POI数据为冗余数据。
地址 100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间