发明名称 一种基于自回归模型的在线连载内容流行度预测方法
摘要 本发明涉及一种基于自回归模型的在线连载内容流行度预测方法,与现有技术相比解决了没有针对在线连载内容流行度预测方法的缺陷。本发明包括以下步骤:训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;流行度预测,利用自回归模型预测新连载内容的流行度。本发明可以实现针对在线连载内容的流行度预测,作为转移模型的衍生物,利用它的模型参数设计出一个新的评估连载内容质量的指标,对于内容推荐有重要意义。
申请公布号 CN103914743B 申请公布日期 2017.01.25
申请号 CN201410161457.0 申请日期 2014.04.21
申请人 中国科学技术大学先进技术研究院 发明人 常标;祝恒书;谭昶;陈恩红;刘淇;熊辉
分类号 G06Q10/04(2012.01)I;G06F17/30(2006.01)I 主分类号 G06Q10/04(2012.01)I
代理机构 合肥天明专利事务所 34115 代理人 张祥骞;奚华保
主权项 一种基于自回归模型的在线连载内容流行度预测方法,其特征在于,包括以下步骤:11)训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;12)流行度预测,利用自回归模型预测新连载内容的流行度;所述的流行度预测利用转移模型进行新连载内容流行度的预测,包括以下步骤:121)定义变量,定义连载内容为n,第i集在第j个相对时间间隔的流行度为V<sub>ij</sub>,来自追剧者的浏览量为a<sub>ij</sub>,来自新增者的浏览量为b<sub>ij</sub>,第i集第j个相对时间间隔的追剧者在第k个相对时间间隔观看第i+1集的概率为p<sub>ijk</sub>,第i集第j个相对时间间隔的新增者在第k个相对时间间隔观看第i+1集的概率为q<sub>ijk</sub>,其中k&gt;=j,当i=1时,则<img file="FDA0001116084810000011.GIF" wi="444" he="123" />122)转移模型的公式如下:<img file="FDA0001116084810000012.GIF" wi="456" he="97" />其中<img file="FDA0001116084810000013.GIF" wi="1556" he="244" /><img file="FDA0001116084810000014.GIF" wi="805" he="233" />对于任意的i、j、k,则p<sub>ijk</sub>=p<sub>i,j+1,k+1</sub>q<sub>ijk</sub>=q<sub>i,j+1,k+1</sub>;123)求解b<sub>ij</sub>,去除该剧集新增的追剧者随着新集的上映又流失的人数,b<sub>ij</sub>随着i的增加而有减少的趋势,故b<sub>ij</sub>=b<sub>0j</sub>exp<sup>‑αi</sup>其中α是衰减因子,b<sub>0j</sub>为在第j个相对时间间隔时连载内容的初始关注度;124)根据α和b<sub>0j</sub>修改转移模型的公式,如下:<img file="FDA0001116084810000021.GIF" wi="573" he="102" />其中b<sub>0</sub>=(b<sub>01</sub>,...,b<sub>0j</sub>),p=(p<sub>111</sub>,p<sub>112</sub>,...,p<sub>i‑1,jj</sub>),q=(q<sub>111</sub>,q<sub>112</sub>,...,q<sub>i‑1,jj</sub>)。
地址 230088 安徽省合肥市高新区创新产业园A3楼