发明名称 一种基于von Mises-Fisher概率模型的网页分类方法
摘要 本发明公开了一种基于von Mises-Fisher概率模型的网页分类方法,属于互联网及机器学技术领域。所述方法首先对训练样本进行数据预处理、特征提取和特征筛选后建模,然后将待分类网页的特征向量代入模型中实现最终分类。本发明对所得特征向量进行二范数归一化,在消除文本长度对特征向量影响的同时可为von Mises-Fisher模型建模做准备;使用von Mises-Fisher概率模型对文本特征向量进行建模,此模型为首次应用于自然语言处理领域。
申请公布号 CN105550292A 申请公布日期 2016.05.04
申请号 CN201510919129.7 申请日期 2015.12.11
申请人 北京邮电大学 发明人 马占宇;黄迪;周环宇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 姜荣丽
主权项 一种基于von Mises‑Fisher概率模型的网页分类方法,其特征在于:包括以下步骤,步骤1:数据预处理:对于训练样本,去除无用信息,得到第一行为样本类别标签的样本文档;所述的训练样本为带有类别标签的网页;步骤2:特征提取:采用向量空间模型对样本文档进行建模,统计样本文档中各单词作为特征,单词出现的频率作为特征值;步骤3:特征筛选:计算单词的TF‑IDF值,按TF‑IDF值大小排序,筛选具有代表性的单词,组成最终的特征向量;步骤4:建模:使用von Mises‑Fisher混合概率模型对特征向量进行建模,得到各类别的von Mises‑Fisher混合概率模型;步骤5:网页分类:根据von Mises‑Fisher混合概率模型,统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量,将待分类网页的特征向量带入各概率密度函数,从而完成分类。
地址 100876 北京市海淀区西土城路10号