发明名称 通过主题词矫正基于向量空间模型文本相似度计算的方法
摘要 一种通过主题词矫正基于向量空间模型文本相似度计算的方法,它包括:步骤1:提取文本的主题相关信息;步骤2:矫正基于向量空间模型文本相似度计算;该方法能够修正基于向量空间模型文本相似度计算的结果,用当前文本主题词和已定义类的主题词求交,以判断一个文本是否属于已定义的类别,通过反映对主题词相关程度重视的经验值和主题词求交的百分数,构建了更为有效、更为符合自然的文本类别归属结果。
申请公布号 CN1162789C 申请公布日期 2004.08.18
申请号 CN01131403.6 申请日期 2001.09.06
申请人 联想(北京)有限公司 发明人 肖航;高建忠;王江;诸光;王楠
分类号 G06F17/21;G06F17/16 主分类号 G06F17/21
代理机构 北京同立钧成知识产权代理有限公司 代理人 刘芳
主权项 1、一种通过主题词矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述方法包括如下步骤:步骤1:提取文本的主题相关信息;步骤2:对依据步骤1所提取的主题相关信息进行矫正,再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算;步骤3:矫正基于向量空间模型文本相似度计算。
地址 100085北京市海淀区上地信息产业基地创业路6号