发明名称 一种文本在线聚类可视化方法
摘要 一种文本在线聚类可视化方法,属于属于计算机学科下的智能信息处理领域。本发明的目的在于,通过引入用户对类别特征词汇标注信息,实现对聚类过程的约束和优化,提升文本聚类结构的清晰度和可理解性;并且设计了文本在线式聚类技术,实现对文本数据流的增量聚类,保持聚类结构的总体稳定,并自适应更新模型。本发明设计了一种在线式高维数据降维布局方法,能够适应大规模数据或数据流环境;通过对聚类后的文本类别分布向量进行降维布局,实现对文本数据的增量式可视化,在二维或三维欧氏空间中实现对文本数据及其类别结构的可视化展示。
申请公布号 CN102929894A 申请公布日期 2013.02.13
申请号 CN201110230978.3 申请日期 2011.08.12
申请人 中国人民解放军总参谋部第五十七研究所 发明人 金烨;徐诗恒
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种文本在线聚类可视化方法,其特征在于,包括基于词汇标注的文本在线聚类、在线式高维数据降维可视化两大步骤:所述的基于词汇标注的文本在线聚类步骤为:步骤a,用户设置聚类数目,并对其中部分或者全部类别提供若干特征词汇;步骤b,统计初始文本集合中的单词词频信息,采用LDA模型对数据进行建模,并利用标注的类别特征词汇对LDA模型进行约束,采用Gibbs Sampling技术求解模型参数;步骤c,模型参数中的文档类别分布θ用于文本类别的预测,模型参数中的词汇‑类别分布频次n(w,z)将作为约束参数,用于增量聚类过程;步骤d,在线聚类时,新文本数据在已有模型参数n(w,z)基础上进行初始化,然后按照步骤b和步骤c进行建模运算,计算完成后,新文本实现增量聚类,模型参数实现自动更新;所述在线式高维数据降维可视化步骤为:步骤e,对文本聚类得到的高维类别分布向量,计算任意两向量间的相似性,同时随机产生对应低维向量初始值,计算任意两低维向量间的相似性;步骤f,利用KL距离(Kullback‑Leibler Divergence)度量高维向量相似性集合与低维向量相似性集合间的差异;步骤g,通过最优化方法迭代搜索步骤f中相似性集合间差异的最小值,同时不断更新低维向量,达到设定误差范围时停止迭代,利用可视化工具对低维向量可视化;步骤h,在线式处理时,对新到来的高维向量降维利用了已产生的低维向量信息,在迭代搜索时已产生的低维向量不再更新,只对新到来的高维向量按照步骤e、步骤f和步骤g作增量式处理;
地址 610041 四川省成都市393信箱C62