发明名称 一种WAP网页索引库的建立方法与装置
摘要 本发明的目的是提供一种用于WAP网页索引库的建立方法与装置,其中,获取网页数据库中对应权威值超过预定阈值的第一WAP网页;访问所述第一WAP网页,以从对应服务器返回的网页中获得第二WAP网页;当所述第二WAP网页中至少一个尚未存在于所述网页数据库时,将其加入所述网页数据库并进行标记,当所述第二WAP网页中至少一个已存在于所述网页数据库时,对其进行标记;标记所述第一WAP网页中与所述第二WAP网页的内容相似度超过预定的相似度阈值的第一WML网页;根据标记建立所述WAP网页索引库,其对应于不支持WML网页的第一移动终端。与现有技术相比,本发明解决了现有技术中搜索结果召回率过低的问题,有效的提高了召回率。
申请公布号 CN103324695A 申请公布日期 2013.09.25
申请号 CN201310222170.X 申请日期 2013.06.05
申请人 百度在线网络技术(北京)有限公司 发明人 蒲鹏;张燕静;程刚;罗高景
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京汉昊知识产权代理事务所(普通合伙) 11370 代理人 罗朋;赵晶
主权项 一种WAP网页索引库的建立方法,其中,所述WAP网页索引库对应于不支持WML网页的第一移动终端,其中,该方法包括:a获取网页数据库中对应权威值超过预定阈值的第一WAP网页,所述第一WAP网页包括WML网页、XHTML网页以及HTML5移动版网页;b访问所述第一WAP网页,以从对应服务器返回的网页中获得第二WAP网页,其中,所述第二WAP网页包括XHTML网页以及HTML5移动版网页;c当所述第二WAP网页中至少一个尚未存在于所述网页数据库时,将其加入所述网页数据库并进行标记,当所述第二WAP网页中至少一个已存在于所述网页数据库时,对其进行标记;d计算所述第一WAP网页与所述第二WAP网页的内容相似度,并标记所述第一WAP网页中与所述第二WAP网页的内容相似度超过预定的相似度阈值的第一WML网页;e根据所标记的第二WAP网页以及第一WML网页,建立所述WAP网页索引库。
地址 100085 北京市海淀区上地十街10号百度大厦
您可能感兴趣的专利