发明名称 一种基于网络数据的电视剧点播量预测方法
摘要 本发明公开了一种基于网络数据的电视剧点播量预测方法,其特点是将抓取的微博数量和搜索次数以及与电视剧相关数据运用相关性分析和单变量线性回归计算得到初始特征集,然后对初始特征集采用逐步回归法得到X和X<sup>b</sup>特征集,将X和X<sup>b</sup>特征集采用多元线性回归法分别得到电视剧首播前、后的两个预测模型,然后按预测值的大小进行电视剧的排名预测。本发明与现有技术相比具有提前预测点播系统中电视剧未来一段时间内的集均点播量,预测结果有效的反映出电视剧的热门程度,方法简便,准确性好,能为视频运营商在电视剧播出版权购买决策上提供依据,对在线点播系统的吸引用户和增加广告点击量提供强有力的支持。
申请公布号 CN104035994A 申请公布日期 2014.09.10
申请号 CN201410255632.2 申请日期 2014.06.11
申请人 华东师范大学 发明人 胡琴敏;徐晓枫;陈国梁;杜泽宇;罗念;钟哲凡
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海蓝迪专利事务所 31215 代理人 徐筱梅;张翔
主权项 一种基于网络数据的电视剧点播量预测方法,其特征在于以网络爬虫抓取电视剧首播前后与电视剧名相关的微博数量和搜索次数以及与电视剧相关数据,将抓取的数据运用相关性分析和单变量线性回归计算后建立初始特征集,然后对初始特征集采用逐步回归法得到X特征集和X<sup>b</sup>特征集,将X特征集和X<sup>b</sup>特征集采用多元线性回归法得到预测集均点播量,然后按预测值的大小进行电视剧的排名预测,具体预测按下述步骤进行: (一)、数据的抓取a、通过网络爬虫抓取已经结束热播的若干部电视剧以及与电视剧对应的基本数据;b、获取微博排行榜中娱乐领域排名前100的用户,然后根据关注关系,扩展用户数,并补全电视剧演员和各大卫视的官方微博,并抓取这批用户的微博数据;(二)、统计样本a、分析娱乐领域用户的数据,统计可能与电视剧相关因素为A微博数据样本;b、统计若干部电视剧首播前一个月内每周的电视剧名相关总微博数和首播后15天中每天的微博数为B微博数据样本;c、统计百度指数中电视剧首播前一个月内每周电视剧名被搜索的次数和首播后15天中每天搜索次数为搜索数据样本; (三)、初始特征集的建立a、使用SPSS分析工具对统计样本中a步骤的相关因素与电视剧集均点播量分别进行皮尔逊相关系数和斯皮尔曼相关系数的计算,在置信度为5%条件下,只要满足其中一个相关性即为显著相关因素; b、使用SPSS分析工具分别对电视剧首播前一个月内每周的微博数量和首播后15天中每天的微博数量与电视剧首播前一个月内每周被搜索的次数与首播后15天中每天被搜索的次数进行单变量线性回归计算,得到每个变量对电视剧集均点播量的R<sup>2</sup>值,将每个时间点微博与搜索数据中较大的R<sup>2</sup>值作为特征因素,其中因变量为电视剧集均点播量,自变量为每个时间点的单变量; c、将上述a步骤中的显著相关因素与b步骤中较大的R<sup>2</sup>值组成初始特征集;(四)、X和X<sup>b</sup>特征集的建立运用SPSS分析工具对初始特征集进行逐步回归计算得到X特征集,从X特征集中抽取电视剧首播前就能获取的特征得到X<sup>b</sup>特征集;(五)、电视剧的排名预测运用SPSS分析工具对X特征集和X<sup>b</sup>特征集进行多元回归计算得到两个预测模型,并对预测模型加入了偏执项和是否建立特定微博帐号,如果有建立特定微博帐号,则在SPSS分析工具计算的结果上加上有无特定微博帐号电视剧集均的差值;由 X<sup>b</sup>特征集经加入偏执项的多元回归计算得到能在电视剧首播前预测集均点播量的预测模型<img file="2014102556322100001dest_path_image002.GIF" wi="8" he="21" />;由X特征集经加入偏执项的多元回归计算得到能在电视剧首播后预测集均点播量的预测模型<img file="2014102556322100001dest_path_image004.GIF" wi="13" he="21" />,然后根据预测值的大小进行电视剧的排名预测;所述预测模型<img file="394009dest_path_image004.GIF" wi="13" he="21" />为电视剧首播后进行逐步修正的预测结果。
地址 200241 上海市闵行区东川路500号