发明名称 |
基于特征选择的网页文本分类方法 |
摘要 |
基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。 |
申请公布号 |
CN103810264A |
申请公布日期 |
2014.05.21 |
申请号 |
CN201410038614.9 |
申请日期 |
2014.01.27 |
申请人 |
西安理工大学 |
发明人 |
周红芳;郭杰;王鹏;张国荣;段文聪;王心怡;何馨依 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
西安弘理专利事务所 61214 |
代理人 |
李娜 |
主权项 |
基于特征选择的网页文本分类方法,其特征在于,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。 |
地址 |
710048 陕西省西安市金花南路5号 |