主权项 |
一种基于语义的文本相似度计算方法,其特征在于采用基于关键词和基于概念的混合语义相似度计算方法计算文本间的语义相似度,具体包括如下步骤:文本预处理:对文本集进行预处理,去停用词;特征选择,应用卡方统计方法选择文本集的特征:针对每个类别,分别计算各个特征和类别的卡方值,根据特征和类别的卡方值的大小对关键词进行降序排列,设定一个阈值γ,过滤掉低于确定γ的全部关键词,从而得到每个文本的初始表示向量;构建文本语义表示模型:文本的语义表示模型由关键词和概念两部分构成,即D={t<sub>1</sub>,t<sub>2</sub>,...,t<sub>m</sub>,c<sub>1</sub>,c<sub>2</sub>,...,c<sub>n</sub>},其中D表示文本的特征集合,t<sub>i</sub>表示关键词特征,c<sub>i</sub>表示概念特征;对于文本的初始表示向量中不在语料库中的词,保留原形作为文本语义表示模型中关键词特征;对于出现在语料库中的词,利用概念转化规则将其转化成语料库中的概念,作为文本语义表示模型中的概念特征;概念转化规则包括按照一定顺序进行以下操作:首先结合文本所在类别的类标签对概念进行语义消歧处理,确定概念的确切语义,然后利用概念层次转换对概念进行合并处理,以充分挖掘概念间的语义关联,接着,计算文本语义模型中的关键词权重,最后,结合词语自身的特征权重以及词和类别之间相似度的信息计算概念的权重值;基于语料库的文本相似度计算,该部分主要包括两方面处理:一是计算每对关键词间的相似度,二是在关键词相似度基础上计算文本相似度;在计算关键词间的相似度时依赖于以下假设:如果一个词语和其他词语之间存在某些联系,那么它们会共同出现在一些文本中;以此为基础,基于语料库的相似度计算方法首先根据语料库构建一个关键词相似度矩阵,然后通过对关键词对间的相似度加权求和取平均的方式得到文本相似度;基于概念的文本相似度计算,该步骤主要包括两部分,一是计算每对概念间的相似度,二是在概念相似度的基础上计算文本相似度;在计算概念的相似度时,根据Lin提出的经典的概念相似度计算公式计算概念间的相似度,构建一个概念相似度矩阵,然后通过对概念对间的相似度加权求和取平均的方式得到文本相似度;基于语义的文本相似度计算,最后对基于语料库的文本相似度计算结果和基于概念的文本相似度计算结果进行求和从而确定文本间的语义相似度;其中计算每对概念间的相似度包括:在计算概念间的相似度时,根据Lin提出的经典的相似度计算公式计算概念间的相似度,其计算公式如下所示:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>sim</mi><mrow><mi>l</mi><mi>i</mi><mi>n</mi></mrow></msub><mrow><mo>(</mo><msub><mi>s</mi><mn>1</mn></msub><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>2</mn><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>p</mi><mo>(</mo><mrow><mi>L</mi><mi>C</mi><mi>A</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mn>1</mn></msub><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow><mo>)</mo><mo>)</mo></mrow></mrow><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>p</mi><mo>(</mo><msub><mi>s</mi><mn>1</mn></msub><mo>)</mo><mo>)</mo></mrow><mo>+</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>p</mi><mo>(</mo><msub><mi>s</mi><mn>2</mn></msub><mo>)</mo><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001016366250000021.GIF" wi="1542" he="133" /></maths>其中,LCA(s<sub>1</sub>,s<sub>2</sub>)是指语义s<sub>1</sub>和s<sub>2</sub>的最低共同祖先,s<sub>1</sub>和s<sub>2</sub>分别是概念c<sub>1</sub>和c<sub>2</sub>经过语义消歧之后对应的语义,该相似度的取值范围在0和1之间;p(s)为当前词s在知识库中出现的概率,即当前词下位概念,包括其本身,与知识库中所有概念个数的比值。 |