发明名称 |
网页主图提取方法及装置 |
摘要 |
本发明公开了一种网页主图提取方法及装置。该方法包括:获取网页的HTML文本,对HTML文本进行模拟排版展示,并获取网页中每个HTML元素的视觉信息;将HTML文本以块信息为单位进行切割;获取块信息中的文本信息,并根据视觉信息从块信息中获取图片信息;根据图片信息获取符合预定视觉要求的图片,并根据文本信息和图片信息,从符合预定视觉要求的图片中进一步选择满足筛选规则的图片,并将该图片作为网页的主图。借助于本发明的技术方案,能够使主图选取达到非常高的准确率和效率。 |
申请公布号 |
CN104123363A |
申请公布日期 |
2014.10.29 |
申请号 |
CN201410346226.7 |
申请日期 |
2014.07.21 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
陈华清;许晟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
工业和信息化部电子专利中心 11010 |
代理人 |
秦莹 |
主权项 |
一种网页主图提取方法,其特征在于,包括:获取网页的HTML文本,对所述HTML文本进行模拟排版展示,并获取所述网页中每个HTML元素的视觉信息;将所述HTML文本以块信息为单位进行切割;获取所述块信息中的文本信息,并根据所述视觉信息从所述块信息中获取图片信息;根据所述图片信息获取符合预定视觉要求的图片,并根据所述文本信息和所述图片信息,从符合预定视觉要求的图片中进一步选择满足筛选规则的图片,并将该图片作为所述网页的主图。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |