发明名称 一种基于页面分块的图片摘要提取系统及方法
摘要 本发明公开了一种基于页面分块的图片摘要提取系统,包括页面预处理模块、页面分类模块、页面分块模块、主题块识别模块和信息提取模块。本发明还公开了一种基于页面分块的图片摘要提取方法,具体包括:步骤S1、从Internet上把页面抓取下来;步骤S2、页面预处理模块对页面进行预处理;步骤S3、页面分类模块对预处理后的页面分类;步骤S4、页面分块模块进行语义块划分;步骤S5、页面分块模块将主题型页面发送到主题块识别模块,主题块识别模块识别出主题块,并发送给信息提取模块;页面分块模块将非主题型页面发送到信息提取模块;步骤S6、信息提取模块下载图片并与页面关联。本发明具有提取速度快、准确度高、效果好的优点。
申请公布号 CN101944109A 申请公布日期 2011.01.12
申请号 CN201010275844.9 申请日期 2010.09.06
申请人 华南理工大学;广州数园网络有限公司 发明人 董守斌;张朝斌;张凌;李粤;袁华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 李卫东;黄磊
主权项 一种基于页面分块的图片摘要提取系统,其特征在于,包括:页面预处理模块,用于对页面进行预处理,并把预处理后的页面发送给页面分类模块;页面分类模块,用于对预处理后的页面进行分类,分为主题型页面或非主题型页,并将分类后的页面发送给页面分块模块;页面分块模块,用于根据布局标签和视觉特性对页面进行语义块划分,并将分块后的主题型页面发送到主题块识别模块,将分块后的非主题型页面发送到信息提取模块;主题块识别模块,用于从分块后的主题型页面中识别出主题块,并把主题块发送给信息提取模块;和信息提取模块,用于对分块后的页面中的图片进行过滤,获取图片URL,下载图片并将压缩的图片保存路径写入索引,与页面关联。
地址 510640 广东省广州市天河区五山路381号