主权项 |
一种基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,包括以下步骤:步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型f<sub>i</sub>(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;<maths num="0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>c</mi><mo>|</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>Z</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac><munderover><mi>Π</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msubsup><mi>α</mi><mi>i</mi><mrow><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>c</mi><mo>)</mo></mrow></mrow></msubsup></mrow>]]></math><img file="FDA0001138367990000011.GIF" wi="526" he="151" /></maths><img file="FDA0001138367990000012.GIF" wi="950" he="230" />其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,α<sub>i</sub>是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,S<sub>i</sub>是语义元素i中包含的词根个数,P<sub>j</sub>是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;步骤4:建立WSDL半结构化文档语料库特征向量模型;使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;步骤5:生成WSDL半结构化文档文本特征矩阵;利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;步骤6:对两个不同文档按照步骤1‑步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。 |