主权项 |
1.一种基于快速相似度的PageRank方法,其特征在于具体构建方法如下:步骤10从网络中获取各个网页的链接关系;步骤20将链接关系进行预处理,计算得到网页的入度和出度;解析网页,获取网页的标题。再将网页网址、入度、出度和网页标题建立索引;步骤30根据索引库中的内容,计算各网页的PageRank值,计算公式为:<maths num="0001"><![CDATA[<math><mrow><mi>PR</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>=</mo><mi>d</mi><munder><mi>Σ</mi><mrow><mi>v</mi><mo>∈</mo><mi>B</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow></munder><mi>PR</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>/</mo><mi>N</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>d</mi><mo>)</mo></mrow></mrow></math>]]></maths>式中参数:u是一个网页,B(u)是指向网页u的网页集合,N(v)是指网页v向外的链接数,d是衰减因子,通常取0.85;步骤40根据输入的检索词,计算网页标题与检索词的相似度:<maths num="0002"><![CDATA[<math><mrow><mi>Sim</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mi>k</mi></msub><mo>⊕</mo><msub><mi>y</mi><mi>k</mi></msub><mo>/</mo><mi>n</mi></mrow></math>]]></maths>式中参数:x<sub>k</sub>,y<sub>k</sub>分别表示网页U的标题对应的码字和查寻式Q对应的码字中第k位的分量,它们的值为0或1;0表示在某位置上U不存在与检索词或检索词的同义词,1则表示存在;n为码子的长度,<img file="FDA0000068055070000013.GIF" wi="36" he="37" />为模2加(异或)运算;步骤50根据上述的计算可以得到快速相似度PageRank的计算公式:<maths num="0003"><![CDATA[<math><mrow><mi>rel</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mi>PR</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>·</mo><mi>Sim</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>·</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mi>s</mi><mrow><mn>2</mn><mi>n</mi></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>式中参数:rel(U,Q)是快速相似度PageRank值;PR(U)是网页U的PageRank值;Sim(U,Q)是网页标题和检索词的相似度值;s是标记U中存在同义词的个数;n为网页标题码字的长度。 |