发明名称 文本相似度计算方法及装置
摘要 本发明提供了一种文本相似度计算方法及装置,其中的方法包括:确定多条待定文本;将各条待定文本分别转换为各自对应的字符串列表,并基于各个字符串列表计算各待定文本的文本签名;查找出具有相同文本签名的所有待定文本,构成候选文本集,其中,所述候选文本集中任意两个文本组成候选对;计算所述候选对的两个文本之间的相似度。本发明可处理海量网络评论文本,同时保证处理效率。
申请公布号 CN106372202A 申请公布日期 2017.02.01
申请号 CN201610799835.7 申请日期 2016.08.31
申请人 北京奇艺世纪科技有限公司 发明人 唐文韬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京润泽恒知识产权代理有限公司 11319 代理人 苏培华
主权项 一种文本相似度计算方法,其特征在于,包括:确定多条待定文本;将各条待定文本分别转换为各自对应的字符串列表,并基于各个字符串列表计算各待定文本的文本签名;查找出具有相同文本签名的所有待定文本,构成候选文本集,其中,所述候选文本集中任意两个文本组成候选对;计算所述候选对的两个文本之间的相似度。
地址 100080 北京市海淀区北一街2号鸿城拓展大厦10、11层