发明名称 |
一种网页中非正文文本的识别系统及方法 |
摘要 |
本发明公开了一种网页中非正文文本的识别系统及方法,涉及正文抽取领域。所述系统包括:网页抓取器适于抓取目标网站的所有网页的数据;DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;DOM树分析单元,适于根据DOM树找出网页中的单元文本段;文本统计单元,适于统计单元文本段在目标网站的所有网页中的出现次数;文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。所述系统及方法,克服了现有方法对于非正文文本识别的滞后问题,并且具有较高的识别准确度。 |
申请公布号 |
CN102779172A |
申请公布日期 |
2012.11.14 |
申请号 |
CN201210214385.2 |
申请日期 |
2012.06.25 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
王志刚 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
王莹 |
主权项 |
一种网页中非正文文本的识别系统,其特征在于,所述系统包括:网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元;所述网页抓取器适于抓取目标网站的所有网页的数据;所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段;所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数;所述文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |