一种网页中非正文文本的识别系统及方法,申请号CN201210214385.2-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种网页中非正文文本的识别系统及方法
摘要	本发明公开了一种网页中非正文文本的识别系统及方法，涉及正文抽取领域。所述系统包括：网页抓取器适于抓取目标网站的所有网页的数据；DOM树构建单元，适于构建目标网站的每个网页对应的DOM树；DOM树分析单元，适于根据DOM树找出网页中的单元文本段；文本统计单元，适于统计单元文本段在目标网站的所有网页中的出现次数；文本识别单元，适于在所述出现次数大于预定阈值时，将所述单元文本段识别为非正文文本。所述系统及方法，克服了现有方法对于非正文文本识别的滞后问题，并且具有较高的识别准确度。
申请公布号	CN102779172A	申请公布日期	2012.11.14
申请号	CN201210214385.2	申请日期	2012.06.25
申请人	北京奇虎科技有限公司;奇智软件（北京）有限公司	发明人	王志刚
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京路浩知识产权代理有限公司 11002	代理人	王莹
主权项	一种网页中非正文文本的识别系统，其特征在于，所述系统包括：网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元；所述网页抓取器适于抓取目标网站的所有网页的数据；所述DOM树构建单元，适于构建目标网站的每个网页对应的DOM树；所述DOM树分析单元，适于根据所述DOM树找出所述网页中的单元文本段；所述文本统计单元，适于统计所述单元文本段在所述目标网站的所有网页中的出现次数；所述文本识别单元，适于在所述出现次数大于预定阈值时，将所述单元文本段识别为非正文文本。
地址	100088 北京市西城区新街口外大街28号D座112室（德胜园区）

您可能感兴趣的专利

Einrichtung zum selbsttätigen Wählen von Telephonverbindungen.

Vorrichtung zum Reinigen und Formen der Fingernägel.

Verfahren zur Darstellung einer therapeutisch wertvollen Verbindung der heterocyclischen Reihe.

Elektrische Edelgaslampe.

Autogenbrenner.

Anschluss-Steckdose.

Einrichtung zum selbsttätigen Regeln des Flüssigkeitsstandes in einer Tauchglocke, insbesondere in einer Unterwassermotor-Tauchglocke.

Selbsttätiges Ventil.

Rohrverbindung.

Verfahren zur Herstellung künstlicher Fourniere.

Verfahren zur Herstellung von rohrförmigen Gegenständen aus metallischen Werkstoffen.

Zirkel zur Erzeugung ellipsenähnlicher Kurven.

Einrichtung zur Überwachung des Schalt- oder Spannungszustandes von Fernleitungen.

Kühleinrichtung für die Wicklungsköpfe von hochspannungsmaschinen.

Verfahren zur Herstellung von lichtempfindlichen Kolloidschichten.

Vorrichtung zur Herstellung von dünnen, grösseren Isolierplatten aus Holzfaserbrei.

Nähmaschine mit elektromotorischem Antrieb.

Vorrichtung zur Befestigung einer Deckschiene bei Gardinen, Vorhängen und dergleichen.