发明名称 一种基于话题模型的中文文本自动分类方法
摘要 本发明提供一种基于话题模型的中文文本自动分类方法,涉及自动分类技术,本发明将文本向量表示、向量降维之后,根据已经掌握的样本数据信息,通过LDA算法对已有的语料进行训练,总结出分类规律,建立判别公式和判别规则。在遇到新文本时,根据判别规则来确定文本的相关类别。实现了对海量数据库和海量主题的分析计算。
申请公布号 CN106326495A 申请公布日期 2017.01.11
申请号 CN201610855211.2 申请日期 2016.09.27
申请人 浪潮软件集团有限公司 发明人 高峰;王茂帅;柳廷娜;甄教明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 姜明
主权项 一种基于话题模型的中文文本自动分类方法,其特征在于,将文本向量表示、向量降维之后,根据已经掌握的样本数据信息,通过LDA算法对已有的语料进行训练,总结出分类规律,建立判别公式和判别规则;在遇到新文本时,根据判别规则来确定文本的相关类别。
地址 250100 山东省济南市高新区科航路2877号