发明名称 网页类别知识库的建立系统及方法
摘要 本发明公开了一种网页类别知识库的建立系统,涉及互联网技术领域,该系统包括:样本页面框架ID计算模块,适于抽取样本网页的页面框架,计算样本网页的页面框架ID;模式累计模块,适于累计相同ID的页面框架数量达到阈值时,计算样本网页的页面框架模式;知识库建立模块,适于建立样本网页的类别和所述页面框架模式的映射关系以生成网页类别知识库。本发明还公开了一种网页类别知识库的建立方法。根据本发明的网页类别知识库的建立系统及方法可以建立识别网页类别的知识库以快速识别网页类别,由此解决了全网搜索无法区分网页类别的问题,取得了快速识别网页类别的有益效果。
申请公布号 CN102890717A 申请公布日期 2013.01.23
申请号 CN201210376381.4 申请日期 2012.09.29
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 卢宏林
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种网页类别知识库的建立系统,包括:样本页面框架ID计算模块,适于抽取样本网页的页面框架,计算样本网页的页面框架ID;模式累计模块,适于累计相同ID的页面框架数量达到阈值时,计算样本网页的页面框架模式;知识库建立模块,适于建立样本网页的类别和所述页面框架模式的映射关系以生成网页类别知识库。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)