一种结合差异特征分布与链接特征的网页排序方法,申请号CN201210215860.8-传众专利搜索

发明名称	一种结合差异特征分布与链接特征的网页排序方法
摘要	本发明涉及一种结合差异特征分布与链接特征的网页排序方法。首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的差异特征分布，选择正常网页与垃圾网页差异特征分布有明显差异的特征，称为差异特征；根据网页差异特征分布，计算网页差异特征的信任贡献值；结合网页信任值与网页差异特征的信任贡献值计算网页信任度；根据网页信任度对网页排序。本发明利用正常网页与垃圾网页在分布上存在差异的内容特征，结合网页链接特征，更好地提高好网页的排序，降低垃圾网页的排序。
申请公布号	CN102750380B	申请公布日期	2014.10.15
申请号	CN201210215860.8	申请日期	2012.06.27
申请人	山东师范大学	发明人	张化祥;张悦童;刘阳
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南圣达知识产权代理有限公司 37221	代理人	张勇
主权项	一种结合差异特征分布与链接特征的网页排序方法，其特征是：首先通过TrustRank算法计算网页信任值；分析已标记为正常与垃圾网页的特征分布，选择正常网页与垃圾网页特征分布有明显差异的特征，称为差异特征；根据网页差异特征分布，计算网页差异特征的信任贡献值；结合网页信任值与网页差异特征的信任贡献值计算网页信任度；根据网页信任度对网页排序；网页p差异特征的信任贡献值计算公式为：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Π</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>\|</mo><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>y</mi><mi>pi</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>\|</mo></mrow>]]></math><img file="FDA0000534694850000011.GIF" wi="661" he="176" /></maths>其中<img file="FDA0000534694850000012.GIF" wi="499" he="201" />为网页第i个差异特征对应的正态分布函数，μ<sub>i</sub>为网页第i个差异特征的均值，σ<sub>i</sub>为网页第i个差异特征的标准差；y<sub>pi</sub>(x)为网页p的第i个差异特征值为x的网页所占比例，n为差异特征个数。
地址	250014 山东省济南市历下区文化东路88号