发明名称 基于动态贝叶斯模型的网页垃圾检测方法
摘要 基于动态贝叶斯模型的网页垃圾检测方法涉及一种作弊网页检测的方法,主要采用一种改进的动态贝叶斯网络模型为用户点击行为建模,对作弊网页进行判断和识别,搜索引擎查询日志记录了用户与搜索引擎的交互信息。它的内容包括查询词、搜索引擎返回的网址、用户点击的网址以及时间戳等信息。日志中被点击的网址及其点击顺序等信息反映了用户的喜好。本发明为日志点击行为建模,挖掘搜索引擎返回列表序列中网址之间的点击因果关系,从用户的角度说明了哪些网址是用户认为和查询词相关联的,得到从用户角度出发的网页与查询的相关性,它是一种隐含的回馈,从而使作弊网页的排名位置靠后,而相关网页的排名则靠前了。
申请公布号 CN102243659B 申请公布日期 2014.07.16
申请号 CN201110200276.0 申请日期 2011.07.18
申请人 南京邮电大学 发明人 张卫丰;常成成;田先桃;张迎周;周国强;许碧欢;陆柳敏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种基于动态贝叶斯模型的网页垃圾检测方法,其特征在于该方法分为三大部分: 一.日志分析 步骤11)收集网页点击日志; 步骤12)对日志内容进行分析,提取其中的用户身份标识号码、查询词、结果排名、是否被点击以及网址; 步骤13)按照每个查询词下所有的用户身份标识号码的个数进行降序排列; 步骤14)对于每个查询词,以其对应的网址和是否被点击建立会话文件; 二.采用期望最大化算法计算吸引度a<sub>u</sub>和满意度s<sub>u</sub>步骤21)初始化吸引度a<sub>u</sub>和满意度s<sub>u</sub>; 步骤22)由条件独立性可推导出事件A<sub>i</sub>,S<sub>i</sub>的后验概率, <img file="FDA0000463195400000011.GIF" wi="1788" he="228" />公式5<img file="FDA0000463195400000012.GIF" wi="1354" he="231" />公式6<img file="FDA0000463195400000013.GIF" wi="1737" he="225" />                                                      公式7 <img file="FDA0000463195400000014.GIF" wi="1468" he="248" />                                                      公式8 其中,<img file="FDA0000463195400000015.GIF" wi="68" he="76" />表示用户是否检查返回结果列表中第j个会话的第i个网址的摘要;E<sub>i+1</sub>表示用户是否检查下一个网址的摘要;变量<img file="FDA0000463195400000016.GIF" wi="58" he="76" />表示用户是否点击返回结果列表中第j个会话的第i个网址;<img file="FDA0000463195400000017.GIF" wi="64" he="76" />表示第j个会话的第i个网址的满意度的二值变量;<img file="FDA0000463195400000018.GIF" wi="58" he="76" />表示第j个会话的第i个网址的吸引度的二值变量;<img file="FDA0000463195400000019.GIF" wi="313" he="93" />表示满意的情况下点击下一个网址与否的概率;<img file="FDA00004631954000000110.GIF" wi="281" he="93" />表示点击情况下,满意与否的概率;<img file="FDA00004631954000000111.GIF" wi="362" he="98" />表示在条件<img file="FDA00004631954000000112.GIF" wi="60" he="76" />和<img file="FDA00004631954000000113.GIF" wi="140" he="74" />下发生<img file="FDA00004631954000000114.GIF" wi="62" he="76" />的条件概率;<img file="FDA00004631954000000115.GIF" wi="274" he="83" />表示浏览摘要与否E<sub>i</sub>=e的情况下点击<img file="FDA00004631954000000116.GIF" wi="62" he="76" />发生的概率;e,e’和s均为枚举变量,取0和1两个值;步骤23)通过最大化后验概率更新吸引度a<sub>u</sub>和满意度s<sub>u</sub><img file="FDA0000463195400000021.GIF" wi="1517" he="146" />公式9<img file="FDA0000463195400000022.GIF" wi="1489" he="146" />公式10其中,<img file="FDA0000463195400000023.GIF" wi="64" he="77" />表示第j个会话的第i个位置的网址;u表示网页地址;N表示一次查询中会话的个数;M表示每个会话的网页地址的个数;I为示性函数,即满足括号内的等式为1,不满足括号内的等式为0;P(a)和P(s)表示a和s的先验贝塔分布;a=P(C<sub>i</sub>=1|E<sub>i</sub>=1),表示用户检查了第i个网址的摘要的条件下点击的概率;s=P(S<sub>i</sub>=1|C<sub>i</sub>=1),表示用户点击了第i个网址,阅读内容后满意的概率;步骤24)以步骤23)得到的吸引度a<sub>u</sub>和满意度s<sub>u</sub>重复步骤22)、步骤23); 步骤25)迭代20次后,对网页是否为作弊网页进行预测,迭代后的吸引度a<sub>u</sub>、满意度s<sub>u</sub>大于等于选定的阈值为正常网页,小于选定的阈值为作弊网页; 三.进行验证 步骤31)让10个志愿者根据自己的判断在返回列表的网址中前10个网址找出作弊的网页,认为作弊的打分为1,不是作弊为‑1,无法判断为0;得分最高的3个网页作为查询的作弊网页; 步骤32)通过提出的评价指标中的查准率、召全率、作弊度,来验证所提出的方法; 其中:令R表示与查询相关的网页集合,|R|为集合的大小;A表示我们的算法返回的前10个结果;查准率和召全率的计算方法如下: <img file="FDA0000463195400000024.GIF" wi="351" he="166" />(公式11)<img file="FDA0000463195400000025.GIF" wi="350" he="169" />(公式12)作弊度:令M表示原返回列表中作弊网页的集合,|M|表示集合的大小;N表示我们的算法排名中前10个网址为作弊网页的集合,|N|表示集合的大小; <img file="FDA0000463195400000026.GIF" wi="375" he="141" />(公式13)查准率和召全率度量了算法产生结果的精确程度和完全程度,而作弊度则度量了算法打击作弊行为的能力。 
地址 210003 江苏省南京市新模范马路66号