发明名称 一种互联网网站的分类方法及装置
摘要 本发明提供了一种互联网网站的分类方法及装置,上述方法包括:爬取待分类的互联网网站的网站内容;根据互联网网站所属的应用领域,构建应用领域匹配的原始词典:中文分词词典和停止词词典;根据综合词典,训练原始词典对应的关键词库,并根据关键词库优化原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,关键词库包括多个网站内容的类别关键词且多个类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;根据优化关键词库中的类别关键词对待分类的互联网网站的网站内容进行计算,得到互联网网站的类别;其降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度。
申请公布号 CN106156372A 申请公布日期 2016.11.23
申请号 CN201610799477.X 申请日期 2016.08.31
申请人 北京北信源软件股份有限公司 发明人 祁豪兵;陈圣强;李鹏
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人 邓超
主权项 一种互联网网站的分类方法,其特征在于,所述方法包括:爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。
地址 100081 北京市海淀区中关村南大街34号中关村科技发展大厦C座1602室