发明名称 | 网页正文抽取方法和装置 | ||
摘要 | 本发明公开了一种网页正文抽取方法和装置。根据本发明一个实施例的网页正文抽取方法包括:将网页表示为树状结构;判断树状结构中的每一个节点是否为有效节点;以及组合作为有效节点的叶子节点中所包含的正文信息,以得到所述网页的正文,其中,对于树状结构中的给定节点,如果在所述给定节点的儿子节点中预定类型的节点所占的比例小于或等于第一阈值,则判定所述给定节点为有效节点。 | ||
申请公布号 | CN101872350A | 申请公布日期 | 2010.10.27 |
申请号 | CN200910137364.3 | 申请日期 | 2009.04.24 |
申请人 | 富士通株式会社 | 发明人 | 贾晓建;王主龙;孟遥;于浩 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京集佳知识产权代理有限公司 11227 | 代理人 | 康建峰;李春晖 |
主权项 | 一种网页正文抽取方法,包括:将网页表示为树状结构;判断树状结构中的每一个节点是否为有效节点;以及组合作为有效节点的叶子节点中所包含的正文信息,以得到所述网页的正文,其中,对于树状结构中的给定节点,如果在所述给定节点的儿子节点中预定类型的节点所占的比例小于或等于第一阈值,则判定所述给定节点为有效节点。 | ||
地址 | 日本神奈川县 |