发明名称 |
网站所属行业的分类方法和服务器 |
摘要 |
本发明提供一种网站所属行业的分类方法和服务器,方法包括:服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。本发明实施例有效解决现有技术中,采用人工方式判断各网站所属的行业类型需耗费大量人力且执行效率低的技术问题。 |
申请公布号 |
CN104750754A |
申请公布日期 |
2015.07.01 |
申请号 |
CN201310753049.X |
申请日期 |
2013.12.31 |
申请人 |
北龙中网(北京)科技有限责任公司 |
发明人 |
高宁;杨莹 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
刘芳 |
主权项 |
一种网站所属行业的分类方法,其特征在于,包括:服务器获取待分类网站的网页内容信息;所述服务器对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;所述服务器将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;所述服务器根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。 |
地址 |
100190 北京市海淀区中关村南四街四号中国科学院软件园1号楼二层 |