发明名称 一种基于Web日志数据的信息个性化推荐方法
摘要 一种基于Web日志数据的信息个性化推荐方法,属电子信息技术领域。用于“服务器+宽带网络+多媒体瘦客户端”的信息化模式。用户通过多媒体瘦客户端访问网上资源,服务器将用户此次行为记录在服务器日志文件中;通过对服务器中Web日志文件的数据进行分析和预处理,提取出干净、规则、准确的数据源;使用协同过滤技术建立用户兴趣矩阵,计算各用户间的相似度,选较大相似度的用户作为相似用户;对相似用户的兴趣爱好建立推荐资源池;服务器选推荐资源池中推荐值大于阈值的页面推荐给用户。本发明的优点是通过对Web日志文件中的数据进行预处理,得到更加干净规则的数据源,并结合相似用户的兴趣爱好,为用户提供更精准、个性化的信息推荐。
申请公布号 CN103678652B 申请公布日期 2017.02.01
申请号 CN201310717507.4 申请日期 2013.12.23
申请人 山东大学 发明人 袁东风;马云
分类号 G06F17/30(2006.01)I;G06F11/34(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南金迪知识产权代理有限公司 37219 代理人 许德山
主权项 一种基于Web日志数据的信息个性化推荐方法,步骤如下:A、用户通过多媒体瘦客户端访问网络上的资源,服务器将用户此次的行为记录在服务器日志文件中;B、对服务器中Web日志文件的数据进行分析和预处理,排除掉访问量极少、不具代表性用户的访问记录及其中转页即称之为垃圾数据的一类数据,将原始半结构化不容易被人读懂的Web日志数据转换成结构化的数据;根据Web日志文件的内容信息,在数据表中构建相应的字段,再将文本数据导入到数据表中;对数据表中的数据进行清理,将用户访问信息中没有意义的数据,包括后缀名为bmp、jpg、jpeg、php、jsp的这些访问记录以及状态码不为200即表示不成功的访问的日志记录删除,只保留后缀名为HTML、HTM及XML的日志记录;其中bmp表示位图,jpg和jpeg表示略失真压缩的图形文件格式,php是超级文本预处理语言,在服务器端执行的嵌入式HTML文档的脚本语言,jsp表示嵌入式网页脚本,HTML、HTM和XML都是网页文件;Web日志文件默认的状态码以2开头表示请求成功,以3开头表示用户请求被重定向到其他位置,以4开头表示客户端存在错误,以5开头表示服务器端存在错误;根据用户的IP识别出不同的用户,选择访问量达到一定值的用户来进行行为分析;根据用户在整个站点的停留时间进行会话识别,设定一个时间阈值,如果超过这个时间阈值则认为新的会话开始;从用户会话中找出有意义的访问页面和访问路径,将用户在访问过程中为达到目的页而不得不访问的链接页面即中转页从会话中删除;C、使用协同过滤技术建立用户兴趣矩阵,计算各个用户之间的相似度,选择一些具有较大相似度的用户作为相似用户;用户‑页面矩阵表示为R(M×N),其中矩阵值Rm,n表示用户M浏览页面N的时间,将用户‑页面矩阵R(M×N)转化为用户‑资源类别矩阵C(M×X),其中矩阵值Cm,x表示用户M浏览某一资源类别X的时间,对矩阵C(M×X)进行加权过滤数据预处理,得到标准化的资源,从而形成用户兴趣矩阵;采用K‑平均聚类算法对用户进行聚类,用户的相似度选取余弦相似度来评价;D、针对相似用户的兴趣爱好建立推荐资源池;用户i对页面j的兴趣度U<sub>i,j</sub>可以表示为在页面j总的停留时间与用户i对所有页面浏览时间总和的比值与页面j的字节数与所有访问页面字节数之和比值的乘积,即:<maths num="0001"><math><![CDATA[<mrow><msub><mi>U</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>&Sigma;</mi><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>t</mi><mi>i</mi><mi>m</mi><mi>e</mi><mi>i</mi><mo>,</mo><mi>k</mi></mrow></mfrac><mo>&times;</mo><mfrac><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mi>i</mi><mo>,</mo><mi>k</mi></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0001074236670000011.GIF" wi="614" he="206" /></maths>其中:timei,j是用户i在页面j总的停留时间,timei,k是用户i对所有页面浏览时间总和,sizei,j是页面j的字节数,sizei,k是所有访问页面字节数之和,k是自然数,m是所有页面总数;E、在服务器处由阈值设定单元设定推荐值的阈值,服务器选择推荐资源池中的推荐值大于指定阈值的页面推荐给用户。
地址 250061 山东省济南市历下区经十路17923号