一种面向文本的知识单元关联关系挖掘方法,申请号CN201110312882.1-传众专利搜索

发明名称	一种面向文本的知识单元关联关系挖掘方法
摘要	本发明公开了一种面向文本的知识单元关联关系挖掘方法，按照如下步骤：(1)对文本集合进行聚类，找到具有相似主题的文本子集合，在此基础上，利用文本中术语分布的不对称性，挖掘文本间的线性关联关系；(2)利用知识单元对关联关系的局部性，产生候选知识单元对；(3)基于知识单元对的术语词频、距离和语义类型特征，对候选的知识单元对进行二值分类，识别知识单元对的关联关系。本发明可大大减少候选知识单元个数，在保证精度的前提下，有效地降低了关系挖掘的时间复杂度。
申请公布号	CN102436480B	申请公布日期	2013.11.06
申请号	CN201110312882.1	申请日期	2011.10.15
申请人	西安交通大学	发明人	刘均;郑庆华;叶俊挺
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	西安通大专利代理有限责任公司 61200	代理人	朱海临
主权项	一种面向文本的知识单元关联关系挖掘方法，其特征在于，按照如下步骤：（1）文本关联挖掘：对文本集合进行聚类，找到具有相似主题的文本对，并利用核心术语分布的不对称性，挖掘文本间的线性关联关系；（2）生成候选知识单元对：利用知识单元关联关系的局部性，产生候选的知识单元对；（3）特征选择及知识单元关联关系挖掘：基于知识单元对的术语词频、距离和语义类型特征，使用SVM分类器将候选的知识单元对进行二值分类，挖掘知识单元间的关联关系；其中，步骤（1）所述挖掘文本间的线性关联关系按照如下过程：1）依据向量空间模型VSM，将文本转换为对应的术语向量；2）根据欧式距离的定义，计算任意两个术语向量之间的距离；3）基于术语向量之间的距离，使用AGNES聚类方法对文本集合进行聚类，在AGNES聚类过程中，以下三种情况生成文本对k＝(ti,tj)：a.如果文本ti与文本tj的术语向量距离最小，将文本ti和文本tj合并为一个簇；b.如果文本ti与文本tj的术语向量距离最小，且ti属于簇S中，将文本tj放入簇S中；c.如果文本ti与文本tj的术语向量距离最小，且ti属于簇S，tj属于簇S'，将簇S和簇S'合并为一个新的簇；当集合中只存在一个簇，且所有文本都在此簇中，则聚类过程结束；4）在文本线性关联关系已知的文本集合T中，文本tm线性关联于文本tn，计算其术语分布特征值F(m,n)；术语分布特征值F(m,n)的定义如下： <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Σ</mi> <mrow> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> </mrow> </msub> <mi>tf</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <mo>\|</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <mo>\|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>在式（1）中，Cm表示文本tm中的核心术语集合，ck表示Cm中的第k个核心术语，tf(ck,tn)表示ck在文本tn中的频率；设置阈值参数F0的值，使其大于文本集合T中90%的F(i,j)且F0＜1；对于文本线性关联未知的文本ti和tj，若F(i,j)∈[F0,1/F0]，则文本ti及文本tj判为不关联；否则文本ti及文本tj判为关联。
地址	710049 陕西省西安市咸宁西路28号