发明名称 |
文本相似度计算方法及装置 |
摘要 |
本发明提供了一种文本相似度计算方法及装置,其中的方法包括:确定多条待定文本;将各条待定文本分别转换为各自对应的字符串列表,并基于各个字符串列表计算各待定文本的文本签名;查找出具有相同文本签名的所有待定文本,构成候选文本集,其中,所述候选文本集中任意两个文本组成候选对;计算所述候选对的两个文本之间的相似度。本发明可处理海量网络评论文本,同时保证处理效率。 |
申请公布号 |
CN106372202A |
申请公布日期 |
2017.02.01 |
申请号 |
CN201610799835.7 |
申请日期 |
2016.08.31 |
申请人 |
北京奇艺世纪科技有限公司 |
发明人 |
唐文韬 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京润泽恒知识产权代理有限公司 11319 |
代理人 |
苏培华 |
主权项 |
一种文本相似度计算方法,其特征在于,包括:确定多条待定文本;将各条待定文本分别转换为各自对应的字符串列表,并基于各个字符串列表计算各待定文本的文本签名;查找出具有相同文本签名的所有待定文本,构成候选文本集,其中,所述候选文本集中任意两个文本组成候选对;计算所述候选对的两个文本之间的相似度。 |
地址 |
100080 北京市海淀区北一街2号鸿城拓展大厦10、11层 |