发明名称 一种基于场理论的本体分析方法
摘要 本发明提供一种基于场理论的本体分析方法,首先对本体进行预处理,计算本体概念质量及概念间的语义相似度;然后将本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场,选取合适的影响因子,使概念场的分布体现本体概念的自组织聚集特性;在概念场中,连接等势值点即可得到一系列等势线,等势线呈现自然嵌套结构,势心是等势线在一定范围内的局部极大值点,反映了本体概念聚集的中心位置。因势的叠加作用势心与本体概念不重合,选取距离势心最近的本体概念作为初始聚类中心,根据两个局部极大值点之间的鞍点迭代合并初始聚类,形成不同层次的聚类划分,进而得到本体概念的层次化聚类谱图,准确度高,并具有良好的可扩展性。
申请公布号 CN102779288B 申请公布日期 2015.09.30
申请号 CN201210213291.3 申请日期 2012.06.26
申请人 中国矿业大学 发明人 王志晓;夏士雄;牛强;周勇;张磊
分类号 G06F19/00(2011.01)I;G06N5/00(2006.01)I 主分类号 G06F19/00(2011.01)I
代理机构 上海光华专利事务所 31219 代理人 李仪萍
主权项 一种基于场理论的本体分析方法,其特征在于,所述本体分析方法至少包括以下步骤:1)本体概念预处理的步骤,计算输入本体的本体概念质量及本体概念间语义相似度;输入的本体采用OWL语言描述;所述本体概念质量的计算采用如下公式:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>m</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mi>d</mi><mo>&CenterDot;</mo><mrow><mo>(</mo><mfrac><mrow><mi>m</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mfrac><mrow><mi>m</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><mfrac><mrow><mi>m</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><mfrac><mrow><mi>m</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>s</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000708635950000011.GIF" wi="1269" he="177" /></maths>其中:A是本体概念;m(A)是概念A的质量;c<sub>i</sub>是概念A的直接子类;k为概念A直接子类的个数;m(c<sub>i</sub>)是c<sub>i</sub>的质量;s(c<sub>i</sub>)是c<sub>i</sub>直接父类的个数;d是阻尼因子,0<d<1,d取值为0.85;所述本体概念间的语义相似度计算采用如下公式:<img file="FDA0000708635950000012.GIF" wi="757" he="211" />其中:l为c<sub>i</sub>和c<sub>j</sub>在本体中的语义距离;h为c<sub>i</sub>和c<sub>j</sub>第一个共同父类在本体中所处的深度;α和β为控制l和h作用的参数,α和β的值为α=0.2,β=0.6,e为常数;根据输入本体包含的概念集C={c<sub>1</sub>,c<sub>2</sub>,…,c<sub>i</sub>,…,c<sub>n</sub>},构建一个n维空间R<sup>n</sup>,空间的第i维为概念c<sub>i</sub>与各本体概念的语义相似度(1≤i≤n),称R<sup>n</sup>为输入本体对应的多维空间;输入本体及其对应的多维空间Ω<sub>O</sub>,本体概念c<sub>i</sub>在语义空间中的位置向量为x<sub>ci</sub>=(s<sub>i1</sub>,s<sub>i2</sub>,…,s<sub>ik</sub>,…,s<sub>in</sub>),向量第k维s<sub>ik</sub>为概念c<sub>i</sub>和概念c<sub>k</sub>的语义相似度;2)概念场构建的步骤,将所述步骤1)中处理过的本体概念影射到多维空间中,空间中的本体概念相互联系,共同作用形成概念场;给定概念场中的概念集C={c<sub>1</sub>,c<sub>2</sub>,…,c<sub>i</sub>,…,c<sub>n</sub>}、及概念的位置集P={x<sub>c1</sub>,x<sub>c2</sub>,…,x<sub>ci</sub>,…,x<sub>cn</sub>};概念场中任一场点x的势值<img file="FDA0000708635950000013.GIF" wi="100" he="69" />为:<img file="FDA0000708635950000014.GIF" wi="797" he="235" />其中:n为概念数量;<img file="FDA0000708635950000015.GIF" wi="134" he="77" />为概念c<sub>i</sub>在x处产生的势值;m<sub>ci</sub>为概念c<sub>i</sub>的质量,m<sub>ci</sub>≥0;σ为影响因子,σ∈(0,+∞);||x<sub>ci</sub>‑x||为x<sub>ci</sub>到x的距离,e为常数;所述影响因子σ的取值公式为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>min</mi><mi> H</mi><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>=</mo><mi>min</mi><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><msub><mi>&phi;</mi><mi>ci</mi></msub><mi>Z</mi></mfrac><mo>&CenterDot;</mo><mi>log</mi><mrow><mo>(</mo><mfrac><msub><mi>&phi;</mi><mi>ci</mi></msub><mi>Z</mi></mfrac><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000708635950000021.GIF" wi="658" he="144" /></maths>其中,<img file="FDA0000708635950000022.GIF" wi="449" he="61" />为概念c<sub>1</sub>,c<sub>2</sub>,…,c<sub>i</sub>,…,c<sub>n</sub>所在位置的势值;<img file="FDA0000708635950000023.GIF" wi="198" he="126" />为标准化因子;3)初始聚类中心选取的步骤,在所述步骤2)中建立的概念场中选择本体概念的初始聚类中心;4)概念层次化聚类的步骤,根据所述3)中确定的初始聚类中心,迭代合并初始聚类,形成不同层次的聚类划分,以本体概念类谱图的形式展示本体分析的最终结果;其中,于所述步骤3)及步骤4)中,对于概念场空间进行网格划分并构建索引树,根据Hesse矩阵的特征值对临界点分类,找出局部极大值点和鞍点,然后,根据局部极大值点选取本体概念的初始聚类中心进行初始划分,最后,根据鞍点对初始聚类进行迭代合并。
地址 221116 江苏省徐州市南郊翟山