发明名称 |
一种WAP网页索引库的建立方法与装置 |
摘要 |
本发明的目的是提供一种用于WAP网页索引库的建立方法与装置,其中,获取网页数据库中对应权威值超过预定阈值的第一WAP网页;访问所述第一WAP网页,以从对应服务器返回的网页中获得第二WAP网页;当所述第二WAP网页中至少一个尚未存在于所述网页数据库时,将其加入所述网页数据库并进行标记,当所述第二WAP网页中至少一个已存在于所述网页数据库时,对其进行标记;标记所述第一WAP网页中与所述第二WAP网页的内容相似度超过预定的相似度阈值的第一WML网页;根据标记建立所述WAP网页索引库,其对应于不支持WML网页的第一移动终端。与现有技术相比,本发明解决了现有技术中搜索结果召回率过低的问题,有效的提高了召回率。 |
申请公布号 |
CN103324695A |
申请公布日期 |
2013.09.25 |
申请号 |
CN201310222170.X |
申请日期 |
2013.06.05 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
蒲鹏;张燕静;程刚;罗高景 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京汉昊知识产权代理事务所(普通合伙) 11370 |
代理人 |
罗朋;赵晶 |
主权项 |
一种WAP网页索引库的建立方法,其中,所述WAP网页索引库对应于不支持WML网页的第一移动终端,其中,该方法包括:a获取网页数据库中对应权威值超过预定阈值的第一WAP网页,所述第一WAP网页包括WML网页、XHTML网页以及HTML5移动版网页;b访问所述第一WAP网页,以从对应服务器返回的网页中获得第二WAP网页,其中,所述第二WAP网页包括XHTML网页以及HTML5移动版网页;c当所述第二WAP网页中至少一个尚未存在于所述网页数据库时,将其加入所述网页数据库并进行标记,当所述第二WAP网页中至少一个已存在于所述网页数据库时,对其进行标记;d计算所述第一WAP网页与所述第二WAP网页的内容相似度,并标记所述第一WAP网页中与所述第二WAP网页的内容相似度超过预定的相似度阈值的第一WML网页;e根据所标记的第二WAP网页以及第一WML网页,建立所述WAP网页索引库。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦 |