发明名称 基于自适应子空间学的迭代文本聚类方法
摘要 本发明公开了一种基于自适应子空间学的迭代文本聚类方法,包括以下步骤:(1)初始化:将文本语料表示成文本向量空间,采用仿射传播聚类方法产生初始K个聚类,所有文本的聚类类别表示为初始类归属指示矩阵。(2)子空间投影与聚类之间的迭代:将初始类归属指示矩阵作为先验知识,以最大化平均邻域边缘为目标求解子空间投影矩阵,将文本向量空间投影到子空间,并在子空间中采用仿射传播聚类方法产生K个聚类,从而更新类归属指示矩阵;基于子空间投影矩阵和类归属指示矩阵计算收敛函数,直到函数收敛,退出迭代,完成文本聚类。本发明对文本数据的大小和分布无限制,子空间求解和聚类被融合到统一框架下,通过迭代的策略取得全局最优的聚类结果。
申请公布号 CN103279556B 申请公布日期 2016.08.24
申请号 CN201310230981.4 申请日期 2013.06.09
申请人 南方报业传媒集团 发明人 吴娴;杨兴锋;张东明;何崑
分类号 G06F17/30(2006.01)I;G06K9/66(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 杨晓松
主权项 基于自适应子空间学习的迭代文本聚类方法,其特征在于,包括以下步骤:(1)初始化:将文本语料表示成文本向量空间的数学形式,在文本向量空间上采用仿射传播聚类方法产生初始的K个聚类,进而得到表示文本语料中所有文档所属类别的初始类归属指示矩阵;(2)子空间投影和聚类之间的迭代优化,包括以下步骤:(2‑1)以步骤(1)中获得的初始类归属指示矩阵作为先验知识,采用基于平均邻域边缘最大化的子空间学习方法求解子空间投影矩阵,并且基于初始类归属指示矩阵和子空间投影矩阵计算收敛函数值;(2‑2)若未满足收敛条件,则将原始文本向量空间根据当前子空间投影矩阵投影到子空间中,在子空间中继续采取仿射传播聚类方法产生指定K个聚类,更新当前的类归属指示矩阵;(2‑3)以更新后的类归属指示矩阵作为先验知识,采用基于平均邻域边缘最大化的子空间学习方法求解子空间投影矩阵,并且基于更新后的类归属指示矩阵与子空间投影矩阵计算收敛函数值;(2‑4)重复步骤(2‑2)‑(2‑3),直到满足收敛条件,停止迭代,从迭代过程输出最终的类归属指示矩阵,得到所有文档的最终聚类结果;所述步骤(2‑1)中,基于平均邻域边缘最大化的子空间学习方法求解子空间投影矩阵的步骤是:对于文本向量空间中的某个数据点x<sub>i</sub>,计算其它数据点与x<sub>i</sub>的距离,并按照距离远近以及数据点x<sub>i</sub>所属的类别信息,将它们分为以下两个子集:<img file="FDA0000991890860000012.GIF" wi="76" he="70" />是同类邻域集,包含与x<sub>i</sub>属于同类的ξ个最近邻域点;<img file="FDA0000991890860000013.GIF" wi="77" he="69" />是异类邻域集,包含与x<sub>i</sub>分属不同类的ζ个最近邻域点;分别求取数据点x<sub>i</sub>的平均类间距离和平均类内距离;求取文本向量空间中所有数据点的平均类间距离P和平均类内距离Q;对于所有的数据点,在约束条件<img file="FDA0000991890860000014.GIF" wi="265" he="58" />下,最大化其平均邻域边缘函数,即在满足最大化平均类间距离的同时最小化平均类内距离;从而得到子空间投影矩阵W;所述平均邻域边缘函数为:<maths num="0001"><math><![CDATA[<mrow><mi>&gamma;</mi><mo>=</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mrow><mi>p</mi><mo>:</mo><msub><mi>x</mi><mi>p</mi></msub><mo>&Element;</mo><msubsup><mi>N</mi><mi>i</mi><mi>e</mi></msubsup></mrow></munder><mfrac><mrow><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><mi>p</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow><mrow><mo>|</mo><msubsup><mi>N</mi><mi>i</mi><mi>e</mi></msubsup><mo>|</mo></mrow></mfrac><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>q</mi><mo>:</mo><msub><mi>x</mi><mi>q</mi></msub><mo>&Element;</mo><msubsup><mi>N</mi><mi>i</mi><mi>o</mi></msubsup></mrow></munder><mfrac><mrow><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><mi>q</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow><mrow><mo>|</mo><msubsup><mi>N</mi><mi>i</mi><mi>o</mi></msubsup><mo>|</mo></mrow></mfrac><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000991890860000011.GIF" wi="1174" he="183" /></maths><img file="FDA0000991890860000021.GIF" wi="1462" he="274" />子空间投影的求解须在约束条件<img file="FDA0000991890860000023.GIF" wi="265" he="60" />下,即最大化以下目标函数:<img file="FDA0000991890860000024.GIF" wi="623" he="74" /><img file="FDA0000991890860000025.GIF" wi="394" he="61" />其中,y<sub>i</sub>=W<sup>T</sup>x<sub>i</sub>,即数据点x<sub>i</sub>通过子空间投影矩阵W投影到子空间后的文本向量,y<sub>p</sub>和y<sub>q</sub>分别代表同类邻域集和异类邻域集中的数据点投影到子空间后的文本向量。
地址 510601 广东省广州市越秀区广州大道中289号