发明名称 基于特征选择的网页文本分类方法
摘要 基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。
申请公布号 CN103810264A 申请公布日期 2014.05.21
申请号 CN201410038614.9 申请日期 2014.01.27
申请人 西安理工大学 发明人 周红芳;郭杰;王鹏;张国荣;段文聪;王心怡;何馨依
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安弘理专利事务所 61214 代理人 李娜
主权项 基于特征选择的网页文本分类方法,其特征在于,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。
地址 710048 陕西省西安市金花南路5号