发明名称 |
一种基于k阶混合马尔可夫模型的Web页面访问预测方法 |
摘要 |
本发明公开了一种基于k阶混合马尔可夫模型的Web页面访问预测方法,首先收集和整理Web服务器访问日志数据,识别客户端和用户,排除无意义的访问数据;再识别用户会话,组建Web日志数据库;并根据预测目标从数据库中选取日志数据,以会话为单位组织(k+1)元组,用于训练k阶混合马尔可夫模型;采用最大期望算法学和校准k阶混合马尔可夫模型的参数集;根据目标用户页面访问操作识别会话,应用上述模型预测用户下一步访问的Web页面。本发明可向用户推荐需要访问的页面,减少页面访问的延迟,优化用户体验;从Web服务器角度可以改善Web页面的组织结构,指导搜索引擎的结果排序,改进页面缓存机制,从而提高服务质量。 |
申请公布号 |
CN102262661A |
申请公布日期 |
2011.11.30 |
申请号 |
CN201110200145.2 |
申请日期 |
2011.07.18 |
申请人 |
南京大学 |
发明人 |
顾庆;任颖新;汤九斌;陈道蓄 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
江苏圣典律师事务所 32237 |
代理人 |
贺翔 |
主权项 |
1.一种基于k阶混合马尔可夫模型的Web页面访问预测方法,其特征在于包含以下步骤:1)首先收集和整理Web服务器访问日志数据,针对日志中的每一项访问记录,识别客户端浏览器和用户;排除无意义的访问数据;根据每一项记录析取访问操作o=<u,x,t>,其中u表示用户、x表示Web页面、t表示页面访问时间;2)识别用户会话S,用于组建Web日志数据库,储备用于Web页面访问预测的历史数据;3)根据预测目标从数据库中选取和组织日志数据,按会话整理和组织(k+1)元组集合;4)建立k阶混合马尔可夫模型,并采用最大期望算法训练该k阶混合马尔可夫模型,再基于数据集<img file="FDA0000076381520000011.GIF" wi="36" he="36" />学习和校准k阶混合马尔可夫模型的参数集;5)基于目标用户对Web页面的访问操作,识别最近的用户会话,应用训练后的k阶混合马尔可夫模型预测用户下一步访问的Web页面。 |
地址 |
210093 江苏省南京市汉口路22号 |