主权项 |
一种文本在线聚类可视化方法,其特征在于,包括基于词汇标注的文本在线聚类、在线式高维数据降维可视化两大步骤:所述的基于词汇标注的文本在线聚类步骤为:步骤a,用户设置聚类数目,并对其中部分或者全部类别提供若干特征词汇;步骤b,统计初始文本集合中的单词词频信息,采用LDA模型对数据进行建模,并利用标注的类别特征词汇对LDA模型进行约束,采用Gibbs Sampling技术求解模型参数;步骤c,模型参数中的文档类别分布θ用于文本类别的预测,模型参数中的词汇‑类别分布频次n(w,z)将作为约束参数,用于增量聚类过程;步骤d,在线聚类时,新文本数据在已有模型参数n(w,z)基础上进行初始化,然后按照步骤b和步骤c进行建模运算,计算完成后,新文本实现增量聚类,模型参数实现自动更新;所述在线式高维数据降维可视化步骤为:步骤e,对文本聚类得到的高维类别分布向量,计算任意两向量间的相似性,同时随机产生对应低维向量初始值,计算任意两低维向量间的相似性;步骤f,利用KL距离(Kullback‑Leibler Divergence)度量高维向量相似性集合与低维向量相似性集合间的差异;步骤g,通过最优化方法迭代搜索步骤f中相似性集合间差异的最小值,同时不断更新低维向量,达到设定误差范围时停止迭代,利用可视化工具对低维向量可视化;步骤h,在线式处理时,对新到来的高维向量降维利用了已产生的低维向量信息,在迭代搜索时已产生的低维向量不再更新,只对新到来的高维向量按照步骤e、步骤f和步骤g作增量式处理; |