发明名称 一种基于语义模型的WSDL半结构化文档相似性分析及分类方法
摘要 本发明提出了一种基于语义模型的WSDL半结构化文档的相似性分析及分类方法,利用WordNet词典建立WSDL半结构化文档语义模型,并通过最大熵模型消除词语歧义,建立WSDL半结构化文档语料库特征向量模型,生成WSDL半结构化文档的文档特征矩阵,从而对两个不同文档进行内容的分类与评估,最终得到服务功能的相似性比较。本发明所述方法提高了文档相似性判断准确度,提升了文档分类速度以及准确度,并对向量空间有降维效果。
申请公布号 CN104063502B 申请公布日期 2017.03.22
申请号 CN201410322692.1 申请日期 2014.07.08
申请人 中南大学 发明人 龙军;张祖平;王鲁达;李会玲
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 长沙市融智专利事务所 43114 代理人 黄美成
主权项 一种基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,包括以下步骤:步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型f<sub>i</sub>(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;<maths num="0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>c</mi><mo>|</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>Z</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msubsup><mi>&alpha;</mi><mi>i</mi><mrow><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>c</mi><mo>)</mo></mrow></mrow></msubsup></mrow>]]></math><img file="FDA0001138367990000011.GIF" wi="526" he="151" /></maths><img file="FDA0001138367990000012.GIF" wi="950" he="230" />其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,α<sub>i</sub>是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,S<sub>i</sub>是语义元素i中包含的词根个数,P<sub>j</sub>是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;步骤4:建立WSDL半结构化文档语料库特征向量模型;使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;步骤5:生成WSDL半结构化文档文本特征矩阵;利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;步骤6:对两个不同文档按照步骤1‑步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。
地址 410083 湖南省长沙市岳麓区麓山南路932号