发明名称 一种网页中非正文文本的识别系统及方法
摘要 本发明公开了一种网页中非正文文本的识别系统及方法,涉及正文抽取领域。所述系统包括:网页抓取器适于抓取目标网站的所有网页的数据;DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;DOM树分析单元,适于根据DOM树找出网页中的单元文本段;文本统计单元,适于统计单元文本段在目标网站的所有网页中的出现次数;文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。所述系统及方法,克服了现有方法对于非正文文本识别的滞后问题,并且具有较高的识别准确度。
申请公布号 CN102779172A 申请公布日期 2012.11.14
申请号 CN201210214385.2 申请日期 2012.06.25
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 王志刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种网页中非正文文本的识别系统,其特征在于,所述系统包括:网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元;所述网页抓取器适于抓取目标网站的所有网页的数据;所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段;所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数;所述文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)