发明名称 一种结合差异特征分布与链接特征的网页排序方法
摘要 本发明涉及一种结合差异特征分布与链接特征的网页排序方法。首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的差异特征分布,选择正常网页与垃圾网页差异特征分布有明显差异的特征,称为差异特征;根据网页差异特征分布,计算网页差异特征的信任贡献值;结合网页信任值与网页差异特征的信任贡献值计算网页信任度;根据网页信任度对网页排序。本发明利用正常网页与垃圾网页在分布上存在差异的内容特征,结合网页链接特征,更好地提高好网页的排序,降低垃圾网页的排序。
申请公布号 CN102750380B 申请公布日期 2014.10.15
申请号 CN201210215860.8 申请日期 2012.06.27
申请人 山东师范大学 发明人 张化祥;张悦童;刘阳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 张勇
主权项 一种结合差异特征分布与链接特征的网页排序方法,其特征是:首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的特征分布,选择正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征;根据网页差异特征分布,计算网页差异特征的信任贡献值;结合网页信任值与网页差异特征的信任贡献值计算网页信任度;根据网页信任度对网页排序;网页p差异特征的信任贡献值计算公式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>|</mo><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>y</mi><mi>pi</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>|</mo></mrow>]]></math><img file="FDA0000534694850000011.GIF" wi="661" he="176" /></maths>其中<img file="FDA0000534694850000012.GIF" wi="499" he="201" />为网页第i个差异特征对应的正态分布函数,μ<sub>i</sub>为网页第i个差异特征的均值,σ<sub>i</sub>为网页第i个差异特征的标准差;y<sub>pi</sub>(x)为网页p的第i个差异特征值为x的网页所占比例,n为差异特征个数。
地址 250014 山东省济南市历下区文化东路88号