发明名称 甄别重复实体数据的方法和装置
摘要 一种甄别重复实体数据的方法和系统。所述方法包括:S1:服务器获取待甄别的实体数据;S2:服务器将待甄别的实体数据的名称与数据库中预定量的实体数据的名称逐一进行比较实体名称并得到评分:S3:服务器通过比较评分与预定标准分来判断所述待甄别的实体数据与比较的数据库中的实体数据重复;S4:服务器将判断为不重复的所述待甄别的实体数据添加入数据库。利用本方法,可以高效的甄别出重复的实体数据。
申请公布号 CN102023984B 申请公布日期 2013.12.04
申请号 CN200910170551.1 申请日期 2009.09.10
申请人 阿里巴巴集团控股有限公司 发明人 莫正华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明;张淑贤
主权项 一种甄别重复实体数据的方法,其特征在于,包括:S1:服务器获取待甄别的实体数据;S2:服务器将待甄别的实体数据的名称与数据库中的实体数据的名称通过下述方式逐一比较实体名称:利用预置的不同词性的分词词库对待甄别实体名称及数据库中的实体名称进行分词并确定词性;将经过分词并确定词性的待甄别店名及数据库中的实体名称分别填入预定的模板;比较待甄别店名和数据库中实体店名在所述模板中对应词性的词是否相同,依据店名各词性的比较结果得到实体名称比较的评分;S3:服务器通过比较评分与预定标准分来判断所述待甄别的实体数据与比较的数据库中的实体数据是否重复;S4:服务器将判断为不重复的所述待甄别的实体数据添加入数据库。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱