发明名称 基于稀疏隐式特征表达的有监督在线话题模型学方法
摘要 本发明公开了一种基于稀疏隐式特征表达的有监督在线话题模型学方法,涉及数据挖掘、机器学领域。该方法包括:采用在线学方法对训练集中的文档及文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量;根据训练集的特征向量和训练集中文档的类别信息训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;对待识别的所有文档提取特征向量;待识别文档的特征向量与分类器每个类别的特征向量分别做内积,内积的最大值对应训练集的类别作为待识别文档的识别结果。该方法通过采用在线学的方式大幅度提高了模型训练的速度,同时能够利用监督信息提高分类准确率。
申请公布号 CN103198152A 申请公布日期 2013.07.10
申请号 CN201310146127.X 申请日期 2013.04.24
申请人 清华大学 发明人 朱军;张傲南;张钹
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种基于稀疏隐式特征表达的有监督在线话题模型学习方法,其特征在于,包括以下步骤:S1、采用在线学习的方法对训练集中的文档和文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量,特征向量的每个类别对应训练集中每个类别的所有文档以及文档的所有单词;S2、根据S1所得特征向量和训练集中文档的类别更新字典;S3、根据S1所得特征向量训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;S4、将步骤S1、S2和S3进行一次称为一轮迭代,若迭代轮数等于给定常数则停止迭代,进入步骤S5,否则返回步骤S1,迭代轮数加1,其中迭代轮数初始值为0;S5、对待识别的所有文档进行特征提取,得到待识别文档的特征向量;S6、对待识别文档的特征向量与步骤S3所得分类器所有类别的特征向量分别做内积;S7、将步骤S6所得内积最大值对应训练集的类别作为待识别文档的识别结果。
地址 100084 北京市海淀区清华园北京100084-82信箱