发明名称 网页主图提取方法及装置
摘要 本发明公开了一种网页主图提取方法及装置。该方法包括:获取网页的HTML文本,对HTML文本进行模拟排版展示,并获取网页中每个HTML元素的视觉信息;将HTML文本以块信息为单位进行切割;获取块信息中的文本信息,并根据视觉信息从块信息中获取图片信息;根据图片信息获取符合预定视觉要求的图片,并根据文本信息和图片信息,从符合预定视觉要求的图片中进一步选择满足筛选规则的图片,并将该图片作为网页的主图。借助于本发明的技术方案,能够使主图选取达到非常高的准确率和效率。
申请公布号 CN104123363A 申请公布日期 2014.10.29
申请号 CN201410346226.7 申请日期 2014.07.21
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 陈华清;许晟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 工业和信息化部电子专利中心 11010 代理人 秦莹
主权项 一种网页主图提取方法,其特征在于,包括:获取网页的HTML文本,对所述HTML文本进行模拟排版展示,并获取所述网页中每个HTML元素的视觉信息;将所述HTML文本以块信息为单位进行切割;获取所述块信息中的文本信息,并根据所述视觉信息从所述块信息中获取图片信息;根据所述图片信息获取符合预定视觉要求的图片,并根据所述文本信息和所述图片信息,从符合预定视觉要求的图片中进一步选择满足筛选规则的图片,并将该图片作为所述网页的主图。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)