一种基于von Mises-Fisher概率模型的网页分类方法,申请号CN201510919129.7-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于von Mises-Fisher概率模型的网页分类方法
摘要	本发明公开了一种基于von Mises-Fisher概率模型的网页分类方法，属于互联网及机器学技术领域。所述方法首先对训练样本进行数据预处理、特征提取和特征筛选后建模，然后将待分类网页的特征向量代入模型中实现最终分类。本发明对所得特征向量进行二范数归一化，在消除文本长度对特征向量影响的同时可为von Mises-Fisher模型建模做准备；使用von Mises-Fisher概率模型对文本特征向量进行建模，此模型为首次应用于自然语言处理领域。
申请公布号	CN105550292A	申请公布日期	2016.05.04
申请号	CN201510919129.7	申请日期	2015.12.11
申请人	北京邮电大学	发明人	马占宇;黄迪;周环宇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	姜荣丽
主权项	一种基于von Mises‑Fisher概率模型的网页分类方法，其特征在于：包括以下步骤，步骤1：数据预处理:对于训练样本，去除无用信息，得到第一行为样本类别标签的样本文档；所述的训练样本为带有类别标签的网页；步骤2：特征提取：采用向量空间模型对样本文档进行建模，统计样本文档中各单词作为特征，单词出现的频率作为特征值；步骤3：特征筛选：计算单词的TF‑IDF值，按TF‑IDF值大小排序，筛选具有代表性的单词，组成最终的特征向量；步骤4：建模：使用von Mises‑Fisher混合概率模型对特征向量进行建模，得到各类别的von Mises‑Fisher混合概率模型；步骤5：网页分类：根据von Mises‑Fisher混合概率模型，统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数，得到待分类网页的特征向量，将待分类网页的特征向量带入各概率密度函数，从而完成分类。
地址	100876 北京市海淀区西土城路10号

您可能感兴趣的专利

FIRE EMERGENCY EVACUATION GUIDANCE SYSTEM FOR BUILDING SUCH AS HOTEL

LIQUID CRYSTAL DISPLAY DEVICE

DIGITAL STORAGE OSCILLOSCOPE

CURVE PASSING SYSTEM FOR TRACKLESS VEHICLE

LIQUID CRYSTAL DISPLAY DEVICE

FUEL INJECTION PUMP

CONSTRUCTION METHOD FOR BASEMENT

GARBAGE REMOVAL MACHINE AND GARBAGE REMOVAL DEVICE

WATER STOPPING MATERIAL AND WATER STOPPING METHOD

REPAIR METHOD FOR MOVABLE PART OF BRIDGE SUPPORT

CORNER PART ACCESSARY OF FACING MATERIAL AND MANUFACTURE THEREOF

DRIVE CONTROL DEVICE FOR BACK HOE APPARATUS

UNDERGROUND CONTINUOUS WALL AND EXECUTION METHOD THEREFOR

ELECTROLESS TIN-LEAD ALLOY PLATING BATH

COPPER ALLOY MATERIAL FOR ELECTRIC AND ELECTRONIC EQUIPMENT

PRODUCTION OF PRINTED CIRCUIT BOARD

DEVICE FOR OBSERVING STUCK MATERIAL TO FURNACE WALL IN BLAST FURNACE

RUBBER-TYPE ADHESIVE COMPOSITION EXCELLENT IN HEAT RESISTANCE

INTERCOATING MATERIAL