发明名称 一种应用于网页的图片提取方法及装置
摘要 本申请公开一种应用于网页的图片提取方法及装置。该方法中,获取待处理的网页的原始编程语言;获取原始编程语言的语言标签,根据语言标签,滤除其中与正文无关的内容,得到目标编程语言;根据目标编程语言的语言标签的文字密度,确定文字密度最大的语言标签为目标标签;将目标标签指示的网页区域作为目标区域,选择目标区域中的图片作为待提取的图片。通过本方案,无需预先知悉网页的布局结构,适用范围较宽,从而解决现有技术中第一种图片提取方法具有的通用性差的问题;而且只需对待处理的网页的原始编程语言进行分析处理,与现有技术中第二种图片提取方法相比,需要处理的数据较少,解决该方法所具有的开发测试周期长,计算繁琐复杂的问题。
申请公布号 CN105868346A 申请公布日期 2016.08.17
申请号 CN201610184168.1 申请日期 2016.03.28
申请人 乐视控股(北京)有限公司;乐视网信息技术(北京)股份有限公司 发明人 谢晓静
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京弘权知识产权代理事务所(普通合伙) 11363 代理人 逯长明;许伟群
主权项 一种应用于网页的图片提取方法,其特征在于,包括:获取待处理的网页的原始编程语言;获取所述原始编程语言中包括的语言标签,并根据所述语言标签,滤除所述原始编程语言中与正文无关的内容,得到目标编程语言;根据所述目标编程语言中包括的语言标签的文字密度,确定所述文字密度最大的语言标签为目标标签;将所述目标标签指示的网页区域作为目标区域,选择所述目标区域中的图片作为待提取的图片。
地址 100026 北京市朝阳区姚家园路105号3号楼10层1102