发明名称 |
一种信息图网页的信息图提取、检索方法和装置 |
摘要 |
本发明公开了一种信息图网页的信息图提取、检索方法和装置,该信息图网页检索方法包括:服务器根据网页是否满足预定特征识别包含信息图的网页;其中,该预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及提取识别出的该包含信息图的网页的结构化信息和信息图的特征信息,得到该网页中包含的信息图特征。利用本发明,能够根据用户的检索需求准确地提取并检索到信息图网页。 |
申请公布号 |
CN104881428A |
申请公布日期 |
2015.09.02 |
申请号 |
CN201510155832.5 |
申请日期 |
2015.04.02 |
申请人 |
广州神马移动信息科技有限公司 |
发明人 |
万明成;王刚 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市威世博知识产权代理事务所(普通合伙) 44280 |
代理人 |
何青瓦 |
主权项 |
一种网页的信息图特征提取方法,其特征在于,所述方法包括:服务器根据网页是否满足预定特征识别包含信息图的网页;其中,所述预定特征包括以下四类特征中的至少一种:表示信息图关键词的第一类特征、表示网页正文图像数量为一的第二类特征、表示网页正文文本长度小于阈值的第三类特征以及表示网页统一资源定位符URL模式为信息图网页的第四类特征;以及提取识别出的所述包含信息图的网页的结构化信息和信息图特征信息。 |
地址 |
510000 广东省广州市天河区黄埔大道西平云路163号广电平云广场B塔12层自编01单元 |