发明名称 一种快速计算评论相似度的方法、装置及系统
摘要 一种快速计算评论相似度的方法、装置及系统,其首先提取新评论关键字;然后,为提取的每个关键字查倒排索引及文本信息,找出与新评论文本有相同关键字的文本;进而计算新评论文本与索引文本间相同关键字的数量;并根据新评论文本与索引文本间相同关键字的数量计算新文本与索引中文本的相似度;最终获取新文本最高相似度得分,从而找出与新评论文本中最相似的文本。本发明尤其适合针对影视评论这类短文本内容的相似度分析,可以快速计算短文本相似度,运算程序以空间换时间,减少CPU计算时间。
申请公布号 CN102693279B 申请公布日期 2014.09.03
申请号 CN201210132078.X 申请日期 2012.04.28
申请人 合一网络技术(北京)有限公司 发明人 陈学文;张宇峰;姚键;潘柏宇;卢述奇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种快速计算评论相似度的方法,其特征在于包括如下步骤:S1、提取新评论关键字;S2、为提取的每个关键字查倒排索引及文本信息,找出与新评论文本有相同关键字的文本;S3、计算新评论文本与索引文本间相同关键字的数量;S4、根据新评论文本与索引文本间相同关键字的数量计算新文本与索引中文本的相似度;S5、获取新文本最高相似度得分,从而找出与新评论文本中最相似的文本;S6,将新评论文本加入索引,生产新索引,进而当计算下一条评论时,所有已知评论都要加入倒排索引中,且保留每个文本相似度计算时的中间计算值;其中,步骤S1具体包括如下步骤:S11,将评论原始文本转化为可用处理文本;S12,接着使用分词程序对已处理的评论文本进行分词;S13,根据文本分词结果,抽取句子主干;S14,根据停用词词表进一步过滤步骤S13所得到特征关键字,最终提取得到有用的新的评论关键字;其中步骤S4的具体过程包括:S21,采用采用布尔权重的方法计算特征关键字权重;S22,根据步骤S21获得的各个关键字的权重,采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度,所述Dice系数计算公式为:Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2))其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
地址 100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区