发明名称 一种网页的垂直搜索方法
摘要 本发明公开了一种网页的垂直搜索方法,涉及垂直搜索领域,所述方法包括:获取root集和base集;初始化所述base集的入链权重和出链权重;获取所述base集中所有页面链接的入链网页权重和出链网页权重;获取所述base集中页面的主题相似性和页面的站点权重;根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。本发明实施例通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得可以获取到更符合实际需要的网页,提高了搜索网页的准确性和精度,满足了实际应用中的需要。
申请公布号 CN101807213B 申请公布日期 2011.08.31
申请号 CN201010168867.X 申请日期 2010.05.11
申请人 天津大学 发明人 孙越恒;门瑞
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 温国林
主权项 1.一种网页的垂直搜索方法,其特征在于,所述方法包括以下步骤:(1)获取root集和base集;(2)初始化所述base集的入链权重和出链权重;(3)获取所述base集中所有页面链接的入链网页权重和出链网页权重;(4)获取所述base集中页面的主题相似性和页面的站点权重;(5)根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重;其中,步骤(1)中的所述root集是指对于某一个主题通过搜索引擎所查找到的初始文档集合;所述base集是指从所述root集中的网页出发,由这些网页的出度网页及入度网页所组成的文档集合;其中,步骤(3)中的所述获取所述base集中所有页面链接的入链网页权重和出链网页权重具体为:<maths num="0001"><![CDATA[<math><mrow><mo>&ForAll;</mo><mi>i</mi><mo>,</mo><msubsup><mi>P</mi><mi>i</mi><mi>in</mi></msubsup><mo>=</mo><msub><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>B</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msub><msubsup><mi>P</mi><mi>j</mi><mi>out</mi></msubsup><mo>/</mo><msubsup><mi>N</mi><mi>j</mi><mi>out</mi></msubsup></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><mo>&ForAll;</mo><mi>i</mi><mo>,</mo><msubsup><mi>P</mi><mi>i</mi><mi>out</mi></msubsup><mo>=</mo><msub><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>F</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msub><msubsup><mi>P</mi><mi>j</mi><mi>in</mi></msubsup><mo>/</mo><msubsup><mi>N</mi><mi>j</mi><mi>in</mi></msubsup></mrow></math>]]></maths>其中,<img file="FDA0000063101790000013.GIF" wi="59" he="55" />为网页vi的入链信息确定的网页权重、<img file="FDA0000063101790000014.GIF" wi="77" he="54" />为网页vi的出链信息确定的网页权重、P<sub>i</sub><sup>in</sup>和P<sub>i</sub><sup>out</sup>的初始值为1、<img file="FDA0000063101790000015.GIF" wi="66" he="60" />和<img file="FDA0000063101790000016.GIF" wi="83" he="59" />分别为网页vj的入链数目和出链数目、B(i)和F(i)分别为vi链源页面集合和链宿页面集合;其中,步骤(4)中的所述获取所述base集中页面的主题相似性和页面的站点权重具体为:通过VSM来获取某一行业的特征向量R(w<sub>1</sub>,w<sub>2</sub>,...,w<sub>n</sub>);获取某一网页vi的特征向量C(w<sub>i1</sub>,w<sub>i2</sub>,...,w<sub>in</sub>);获取页面的主题相似性和页面的站点权重;通过<img file="FDA0000063101790000017.GIF" wi="762" he="263" />获取所述页面的主题相似性;w<sub>vi</sub>=Sim(R,C<sub>i</sub>)代表vi页面的主题相似性;统计root集中的前k个页面的各个网站的数目,通过ws<sub>vi1</sub>=1+w<sub>1</sub>*(N<sub>1vi</sub>-1)来获取root集中的前k个页面的第一站点权重ws<sub>vi1</sub>,N<sub>1vi</sub>代表vi页面在前k个页面中属于本站点的页面数目,且vi∈root;统计root集中的后k个页面的各个网站的数目,通过ws<sub>vi2</sub>=ws<sub>vi2</sub>+w<sub>2</sub>*N<sub>2vi</sub>来获取root集中的后k个页面的第二站点权重ws<sub>vi2</sub>,N<sub>2vi</sub>代表vi页面在后k个页面中属于本站点的页面数目,且vi∈root;其中,w<sub>1</sub>和w<sub>2</sub>的取值满足w<sub>1</sub>的取值大于w<sub>2</sub>的取值;其中,步骤(5)中的所述根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重具体为;通过<img file="FDA0000063101790000021.GIF" wi="512" he="97" />和<img file="FDA0000063101790000022.GIF" wi="534" he="97" />获取到a<sub>i</sub>和h<sub>i</sub>,直到前k个收敛;并对a<sub>i</sub>和h<sub>i</sub>进行归一化处理,获取到所述所有页面的入链权重和出链权重,其中,<img file="FDA0000063101790000023.GIF" wi="59" he="60" />为入链网页权重,<img file="FDA0000063101790000024.GIF" wi="77" he="59" />为出链网页权重,w<sub>vj</sub>为主题相似性,ws<sub>vj</sub>为站点权重。
地址 300072 天津市南开区卫津路72号