发明名称 提取网页内容的方法和装置
摘要 本发明提供一种用于提取网页内容的方法和装置。所述方法包括:基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。根据本发明,能够得到比传统技术更优的网页提取结果。
申请公布号 CN101515272A 申请公布日期 2009.08.26
申请号 CN200810080786.7 申请日期 2008.02.18
申请人 株式会社理光 发明人 杜成
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市柳沈律师事务所 代理人 邵亚丽
主权项 1、一种用于提取网页内容的方法,包括:基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。
地址 日本东京都