发明名称 一种基于问题主题和焦点的问题相似度计算方法
摘要 本发明公开了一种基于问题主题和焦点的问题相似度计算方法。利用分词工具对问题数据进行分词等基本的预处理,在此基础上基于最短描述长度的树裁剪模型将每个问题划分成问题主题和问题焦点;针对两个问题的主题结构和焦点结构分别采用语言模型和基于翻译的语言模型计算相似度得分,并通过加权求和得到联合相似度;采用基于BTM主题模型的方法计算两个问题之间的主题相似度,两个相似度最后通过加权求和得到最终的问题相似度。本发明将问题的结构特征和主题信息引入到问题相似度计算当中,对问题信息利用更加充分,通过将单词统计信息之外的问题主题信息引入到问题相似度计算,提高了问题相似度计算的准确率。
申请公布号 CN104899188A 申请公布日期 2015.09.09
申请号 CN201510270876.2 申请日期 2015.05.25
申请人 浙江大学 发明人 鲁伟明;余瑶;吴江琴;庄越挺
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 林超
主权项 一种基于问题主题和焦点的问题相似度计算方法,其特征在于包括以下步骤:1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;2)划分问题的主题和焦点结构:根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构;3)基于问题主题和焦点计算问题间的联合相似度:针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度;4)计算问题相似度:基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
地址 310058 浙江省杭州市西湖区余杭塘路866号