发明名称 | 网页内容提取方法和装置 | ||
摘要 | 本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容。 | ||
申请公布号 | CN102236658A | 申请公布日期 | 2011.11.09 |
申请号 | CN201010157766.2 | 申请日期 | 2010.04.26 |
申请人 | 富士通株式会社 | 发明人 | 付雷;孟遥;夏迎炬;于浩 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京集佳知识产权代理有限公司 11227 | 代理人 | 朱胜;俞波 |
主权项 | 一种网页内容提取装置,包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容。 | ||
地址 | 日本神奈川县 |