发明名称 基于快速相似度的PageRank方法
摘要 本发明公开一种基于快速相似度的PageRank方法。该方法将PageRank算法和改进的汉明距离相似度算法相结合,提出一种新的网页排序方法。PageRank算法是一种单纯研究网页链接的算法,容易出现主题漂移的问题。针对这一问题本算法提出了两点改进:①结合汉明距离相似度算法,计算检索词和网页文本的相似度,提高搜索的查准率。②为提高搜索的查全率,需改进汉明距离相似度算法,增加搜索检索词的同义词,扩大搜索的范围。根据上述两点,得到快速相似度PageRank算法的计算公式,从查全率和查准率两方面满足搜索的要求。
申请公布号 CN102253971A 申请公布日期 2011.11.23
申请号 CN201110158710.3 申请日期 2011.06.14
申请人 南京信息工程大学 发明人 毕硕本;马燕;乔文文;汪大
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 许方
主权项 1.一种基于快速相似度的PageRank方法,其特征在于具体构建方法如下:步骤10从网络中获取各个网页的链接关系;步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;步骤30根据索引库中的内容,计算各网页的PageRank值,计算公式为:<maths num="0001"><![CDATA[<math><mrow><mi>PR</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>=</mo><mi>d</mi><munder><mi>&Sigma;</mi><mrow><mi>v</mi><mo>&Element;</mo><mi>B</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow></munder><mi>PR</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>/</mo><mi>N</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow></mrow></math>]]></maths>式中参数:u是一个网页,B(u)是指向网页u的网页集合,N(v)是指网页v向外的链接数,d是衰减因子,通常取0.85;步骤40根据输入的检索词,计算网页标题与检索词的相似度:<maths num="0002"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mi>k</mi></msub><mo>&CirclePlus;</mo><msub><mi>y</mi><mi>k</mi></msub><mo>/</mo><mi>n</mi></mrow></math>]]></maths>式中参数:x<sub>k</sub>,y<sub>k</sub>分别表示网页U的标题对应的码字和查寻式Q对应的码字中第k位的分量,它们的值为0或1;0表示在某位置上U不存在与检索词或检索词的同义词,1则表示存在;n为码子的长度,<img file="FDA0000068055070000013.GIF" wi="36" he="37" />为模2加(异或)运算;步骤50根据上述的计算可以得到快速相似度PageRank的计算公式:<maths num="0003"><![CDATA[<math><mrow><mi>rel</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mi>PR</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>Sim</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mi>s</mi><mrow><mn>2</mn><mi>n</mi></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>式中参数:rel(U,Q)是快速相似度PageRank值;PR(U)是网页U的PageRank值;Sim(U,Q)是网页标题和检索词的相似度值;s是标记U中存在同义词的个数;n为网页标题码字的长度。
地址 210044 江苏省南京市宁六路219号