发明名称 | 提取网页内容的方法和装置 | ||
摘要 | 本发明提供一种用于提取网页内容的方法和装置。所述方法包括:基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。根据本发明,能够得到比传统技术更优的网页提取结果。 | ||
申请公布号 | CN101515272A | 申请公布日期 | 2009.08.26 |
申请号 | CN200810080786.7 | 申请日期 | 2008.02.18 |
申请人 | 株式会社理光 | 发明人 | 杜成 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京市柳沈律师事务所 | 代理人 | 邵亚丽 |
主权项 | 1、一种用于提取网页内容的方法,包括:基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。 | ||
地址 | 日本东京都 |