一种网页的垂直搜索方法,申请号CN201010168867.X-传众专利搜索

发明名称	一种网页的垂直搜索方法
摘要	本发明公开了一种网页的垂直搜索方法，涉及垂直搜索领域，所述方法包括：获取root集和base集；初始化所述base集的入链权重和出链权重；获取所述base集中所有页面链接的入链网页权重和出链网页权重；获取所述base集中页面的主题相似性和页面的站点权重；根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。本发明实施例通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数，使得可以获取到更符合实际需要的网页，提高了搜索网页的准确性和精度，满足了实际应用中的需要。
申请公布号	CN101807213B	申请公布日期	2011.08.31
申请号	CN201010168867.X	申请日期	2010.05.11
申请人	天津大学	发明人	孙越恒;门瑞
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	天津市北洋有限责任专利代理事务所 12201	代理人	温国林
主权项	1.一种网页的垂直搜索方法，其特征在于，所述方法包括以下步骤：(1)获取root集和base集；(2)初始化所述base集的入链权重和出链权重；(3)获取所述base集中所有页面链接的入链网页权重和出链网页权重；(4)获取所述base集中页面的主题相似性和页面的站点权重；(5)根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重；其中，步骤(1)中的所述root集是指对于某一个主题通过搜索引擎所查找到的初始文档集合；所述base集是指从所述root集中的网页出发，由这些网页的出度网页及入度网页所组成的文档集合；其中，步骤(3)中的所述获取所述base集中所有页面链接的入链网页权重和出链网页权重具体为：<maths num="0001"><![CDATA[<math><mrow><mo>&ForAll;</mo><mi>i</mi><mo>,</mo><msubsup><mi>P</mi><mi>i</mi><mi>in</mi></msubsup><mo>=</mo><msub><mi>Σ</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>B</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msub><msubsup><mi>P</mi><mi>j</mi><mi>out</mi></msubsup><mo>/</mo><msubsup><mi>N</mi><mi>j</mi><mi>out</mi></msubsup></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><mo>&ForAll;</mo><mi>i</mi><mo>,</mo><msubsup><mi>P</mi><mi>i</mi><mi>out</mi></msubsup><mo>=</mo><msub><mi>Σ</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>F</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msub><msubsup><mi>P</mi><mi>j</mi><mi>in</mi></msubsup><mo>/</mo><msubsup><mi>N</mi><mi>j</mi><mi>in</mi></msubsup></mrow></math>]]></maths>其中，<img file="FDA0000063101790000013.GIF" wi="59" he="55" />为网页vi的入链信息确定的网页权重、<img file="FDA0000063101790000014.GIF" wi="77" he="54" />为网页vi的出链信息确定的网页权重、P<sub>i</sub><sup>in</sup>和P<sub>i</sub><sup>out</sup>的初始值为1、<img file="FDA0000063101790000015.GIF" wi="66" he="60" />和<img file="FDA0000063101790000016.GIF" wi="83" he="59" />分别为网页vj的入链数目和出链数目、B(i)和F(i)分别为vi链源页面集合和链宿页面集合；其中，步骤(4)中的所述获取所述base集中页面的主题相似性和页面的站点权重具体为：通过VSM来获取某一行业的特征向量R(w<sub>1</sub>，w<sub>2</sub>，...，w<sub>n</sub>)；获取某一网页vi的特征向量C(w<sub>i1</sub>，w<sub>i2</sub>，...，w<sub>in</sub>)；获取页面的主题相似性和页面的站点权重；通过<img file="FDA0000063101790000017.GIF" wi="762" he="263" />获取所述页面的主题相似性；w<sub>vi</sub>＝Sim(R，C<sub>i</sub>)代表vi页面的主题相似性；统计root集中的前k个页面的各个网站的数目，通过ws<sub>vi1</sub>＝1+w<sub>1</sub>(N<sub>1vi</sub>-1)来获取root集中的前k个页面的第一站点权重ws<sub>vi1</sub>，N<sub>1vi</sub>代表vi页面在前k个页面中属于本站点的页面数目，且vi∈root；统计root集中的后k个页面的各个网站的数目，通过ws<sub>vi2</sub>＝ws<sub>vi2</sub>+w<sub>2</sub>N<sub>2vi</sub>来获取root集中的后k个页面的第二站点权重ws<sub>vi2</sub>，N<sub>2vi</sub>代表vi页面在后k个页面中属于本站点的页面数目，且vi∈root；其中，w<sub>1</sub>和w<sub>2</sub>的取值满足w<sub>1</sub>的取值大于w<sub>2</sub>的取值；其中，步骤(5)中的所述根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重具体为；通过<img file="FDA0000063101790000021.GIF" wi="512" he="97" />和<img file="FDA0000063101790000022.GIF" wi="534" he="97" />获取到a<sub>i</sub>和h<sub>i</sub>，直到前k个收敛；并对a<sub>i</sub>和h<sub>i</sub>进行归一化处理，获取到所述所有页面的入链权重和出链权重，其中，<img file="FDA0000063101790000023.GIF" wi="59" he="60" />为入链网页权重，<img file="FDA0000063101790000024.GIF" wi="77" he="59" />为出链网页权重，w<sub>vj</sub>为主题相似性，ws<sub>vj</sub>为站点权重。
地址	300072 天津市南开区卫津路72号