发明名称 |
一种文本匹配方法及装置 |
摘要 |
本申请公开了一种文本匹配方法及装置,该方法包括:根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;对输入的新增文本进行分词并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;根据计算得到的相似度确定数据库中存储的各文本的相关文本。通过建立和更新词频表的方式避免了现有技术中每次匹配都需要对所有文本进行计算的问题,减少了匹配运算工作量,提高了系统性能。 |
申请公布号 |
CN102411583A |
申请公布日期 |
2012.04.11 |
申请号 |
CN201010290693.4 |
申请日期 |
2010.09.20 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
张旭;苏宁军;顾海杰;祁建程 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
郭润湘 |
主权项 |
一种文本匹配方法,其特征在于,包括:周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;对输入的新增文本进行分词,并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;根据计算得到的相似度确定数据库中存储的各文本的相关文本。 |
地址 |
英属开曼群岛大开曼岛资本大厦一座四层847号邮箱 |