主权项 |
一种结合差异特征分布与链接特征的网页排序方法,其特征是:首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的特征分布,选择正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征;根据网页差异特征分布,计算网页差异特征的信任贡献值;结合网页信任值与网页差异特征的信任贡献值计算网页信任度;根据网页信任度对网页排序;网页p差异特征的信任贡献值计算公式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Π</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>|</mo><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>y</mi><mi>pi</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>|</mo></mrow>]]></math><img file="FDA0000534694850000011.GIF" wi="661" he="176" /></maths>其中<img file="FDA0000534694850000012.GIF" wi="499" he="201" />为网页第i个差异特征对应的正态分布函数,μ<sub>i</sub>为网页第i个差异特征的均值,σ<sub>i</sub>为网页第i个差异特征的标准差;y<sub>pi</sub>(x)为网页p的第i个差异特征值为x的网页所占比例,n为差异特征个数。 |