发明名称 一种面向文本的知识单元关联关系挖掘方法
摘要 本发明公开了一种面向文本的知识单元关联关系挖掘方法,按照如下步骤:(1)对文本集合进行聚类,找到具有相似主题的文本子集合,在此基础上,利用文本中术语分布的不对称性,挖掘文本间的线性关联关系;(2)利用知识单元对关联关系的局部性,产生候选知识单元对;(3)基于知识单元对的术语词频、距离和语义类型特征,对候选的知识单元对进行二值分类,识别知识单元对的关联关系。本发明可大大减少候选知识单元个数,在保证精度的前提下,有效地降低了关系挖掘的时间复杂度。
申请公布号 CN102436480B 申请公布日期 2013.11.06
申请号 CN201110312882.1 申请日期 2011.10.15
申请人 西安交通大学 发明人 刘均;郑庆华;叶俊挺
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 朱海临
主权项 一种面向文本的知识单元关联关系挖掘方法,其特征在于,按照如下步骤:(1)文本关联挖掘:对文本集合进行聚类,找到具有相似主题的文本对,并利用核心术语分布的不对称性,挖掘文本间的线性关联关系;(2)生成候选知识单元对:利用知识单元关联关系的局部性,产生候选的知识单元对;(3)特征选择及知识单元关联关系挖掘:基于知识单元对的术语词频、距离和语义类型特征,使用SVM分类器将候选的知识单元对进行二值分类,挖掘知识单元间的关联关系;其中,步骤(1)所述挖掘文本间的线性关联关系按照如下过程:1)依据向量空间模型VSM,将文本转换为对应的术语向量;2)根据欧式距离的定义,计算任意两个术语向量之间的距离;3)基于术语向量之间的距离,使用AGNES聚类方法对文本集合进行聚类,在AGNES聚类过程中,以下三种情况生成文本对k=(ti,tj):a.如果文本ti与文本tj的术语向量距离最小,将文本ti和文本tj合并为一个簇;b.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S中,将文本tj放入簇S中;c.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S,tj属于簇S',将簇S和簇S'合并为一个新的簇;当集合中只存在一个簇,且所有文本都在此簇中,则聚类过程结束;4)在文本线性关联关系已知的文本集合T中,文本tm线性关联于文本tn,计算其术语分布特征值F(m,n);术语分布特征值F(m,n)的定义如下: <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> </mrow> </msub> <mi>tf</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <mo>|</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>在式(1)中,Cm表示文本tm中的核心术语集合,ck表示Cm中的第k个核心术语,tf(ck,tn)表示ck在文本tn中的频率;设置阈值参数F0的值,使其大于文本集合T中90%的F(i,j)且F0<1;对于文本线性关联未知的文本ti和tj,若F(i,j)∈[F0,1/F0],则文本ti及文本tj判为不关联;否则文本ti及文本tj判为关联。
地址 710049 陕西省西安市咸宁西路28号