发明名称 网页信息提取方法和装置
摘要 本发明提供了网页信息提取方法和装置。所述方法包括:获取网站中的网页的源代码;根据所获取的源代码来建立所述网页的文档对象模型树结构,所述网页的文档对象模型树结构包括一个或多个节点;获取所述网站的至少一个模板,所述模板是文档对象模型树结构的;从所述模板中选择要抽取内容的路径信息;以及将所述要抽取内容的路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,如果匹配成功,则提取所述网页中的与所述路径信息对应的内容信息。
申请公布号 CN101944094B 申请公布日期 2014.06.18
申请号 CN200910158803.9 申请日期 2009.07.06
申请人 富士通株式会社 发明人 王新文;王主龙;于浩;孟遥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 李春晖;郎晓虹
主权项 一种网页信息提取方法,包括: 网页获取步骤:获取网站中的网页的源代码; 网页树结构建立步骤:根据所获取的源代码来建立所述网页的文档对象模型树结构,所述网页的文档对象模型树结构包括一个或多个节点; 模板获取步骤:获取所述网站的至少一个模板,所述模板是文档对象模型树结构的; 路径选择步骤:从所述模板中选择要抽取内容的路径信息;及 路径匹配步骤:将所述要抽取内容的路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,如果匹配成功,则提取所述网页中的与所述路径信息对应的内容信息, 其中,该网页信息提取方法还包括模板生成步骤,其中,所述模板生成步骤包括: 获取所述网站的一个或多个网页的源代码; 建立各网页的文档对象模型树结构; 选择各网页的文档对象模型树结构中的一个或多个节点; 从相应的文档对象模型树结构中提取所选择的节点的路径信息;及 保存各节点的路径信息,从而形成所述模板,并且 其中,所述要抽取内容的路径信息包括从所述模板的根节点到达所述要抽取内容所对应的节点要经过的路径中的各节点的属性信息, 所述网页信息提取方法还包括节点数据结构建立步骤:从所述网页树结构建立步骤中所建立的所述网页的文档对象模型树结构中获取每个节点的相关信息,并按照下列数据结构进行存储供所述路径匹配步骤使用:节点的属性信息、父节点的属性信息、第一个子节点的属性信息、下一兄弟节点的属性信息; 其中,所述路径匹配步骤包括: 绝对匹配步骤:遍历所述网页的文档对象模型树结构,以将所述路径信息与所述网页的文档对象模型树结构中的各节点进行匹配,找到所述路径信息中与所述网页的文档对象模型树结构中的某个节点相匹配的最后的匹配节点;以及 相似匹配步骤:将所述路径信息中所述最后的匹配节点的下一节点改变为该下一节点的某个兄弟节点,重复执行所述绝对匹配步骤。 
地址 日本神奈川县