发明名称 |
一种确定网站目录页的方法及装置 |
摘要 |
本发明提供了一种确定网站目录页的方法及装置,其中确定网站目录页的方法包括:A.获取目录页的锚文本词集合以及非目录页的锚文本词集合;B.利用所述目录页的锚文本词集合以及所述非目录页的锚文本词集合,确定当前页面属于目录页的可能性,并在所述可能性超过设定阈值时将当前页面确定为目录页。通过上述方式,本发明能够提高在网站中挖掘目录页时的召回率和准确率。 |
申请公布号 |
CN103714075A |
申请公布日期 |
2014.04.09 |
申请号 |
CN201210376070.8 |
申请日期 |
2012.09.29 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
张冲 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
倪志华 |
主权项 |
一种确定网站目录页的方法,其特征在于,所述方法包括:A.获取目录页的锚文本词集合以及非目录页的锚文本词集合;B.利用所述目录页的锚文本词集合以及所述非目录页的锚文本词集合,确定当前页面属于目录页的可能性,并在所述可能性超过设定阈值时将当前页面确定为目录页。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |