主权项 |
一种基于语义扩展的海量短文本信息过滤方法,其特征在于,具体包括如下步骤:步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(Latent Dirichlet Allocation)扩展模型,建立主题特征词典;具体为:LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展,并基于支持迭代计算的BSP(Bulk Synchronous Programming)并行编程模型来实现该LDA扩展模型的并行学习算法;步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(Support Vector Machines)过滤器;步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。 |