发明名称 |
一种基于网络热词识别的网页自动分类方法 |
摘要 |
本发明涉及一种基于网络热词识别的网页自动分类方法,主要包括:利用定制爬虫获取网页内容信息;通过互联网关键词库以及互联网停用词库对获取的网页内容进行自动分词。根据关键词出现的频率和时间远近程度去计算其热度值,之后依照该词的热度值利用贝叶斯多维分类模型对网页内容进行初分类。利用关联算法对已归类网页中未匹配分词项进行关联识别,找出互联网关键词库中尚未收集的热词并将其收录至互联网关键词库中。利用更新后的互联网词库对网页初分类过程中无法归类的网页内容进行再分类。 |
申请公布号 |
CN103186675A |
申请公布日期 |
2013.07.03 |
申请号 |
CN201310114155.3 |
申请日期 |
2013.04.03 |
申请人 |
南京安讯科技有限责任公司 |
发明人 |
邵伟;昂卫武;黄汇 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于网络热词识别的网页自动分类方法,其特征在于,主要包括:利用定制爬虫获取网页内容;根据互联网关键词库以及互联网停用词库对获取的网页内容进行分词操作;依据关键词热度值,利用贝叶斯多维分类模型对待分类网页内容进行初分类;利用关联算法对已归类网页内容中未匹配分词项进行关联识别,找出互联网关键词库中尚未收集的热词后将其收录至相关类词库中,更新互联网词库;利用更新的互联网词库对网页内容初分类步骤中无法归类的网页内容进行再分类。 |
地址 |
210012 江苏省南京市软件大道119号丰盛商汇5号楼2层 |