发明名称 一种面向网络电视用户的时序主题偏好预测方法
摘要 一种面向网络电视用户的时序主题偏好预测方法,通过提取用户d天观看电视节目的基本数据,将用户观看电视节目的时间d分为N时间片段,使用隐含狄利克雷分布(LDA)模型进行分析得到n个关于电视节目的主题以及电视节目在不同主题下的概率分布;运用最高分布概率替换原则,得到用户在不同时间片段的主题偏好,结合用户时序主题偏好及主题下电视节目的分布预测用户每一天各个时间片段里可能观看的电视节目以及用户特征,有利于电视运营商为用户提供高质量用户体验服务,有利于电视运营商结合用户特征推广增值服务及第三方商业服务,提高经济效益。本发明通过对提取的数据先进行清理,清除了一些实用性不强的数据,从而提高了预测结果的可靠性。
申请公布号 CN106454400A 申请公布日期 2017.02.22
申请号 CN201610838513.9 申请日期 2016.09.20
申请人 广东工业大学 发明人 郝志峰;黄灿锦;温雯;蔡瑞初;陈炳丰;陈恬
分类号 H04N21/234(2011.01)I;H04N21/25(2011.01)I;H04N21/258(2011.01)I;G06F17/30(2006.01)I 主分类号 H04N21/234(2011.01)I
代理机构 广州市红荔专利代理有限公司 44214 代理人 张文
主权项 一种面向网络电视用户的时序主题偏好预测方法,其特征在于,包括以下步骤:1)通过网络电视运营商服务器抓取用户d天内观看网络电视节目的基本数据,其中每一天的记录时间为00:00:00到23:59:59;2)、针对抓取的基本数据设置电视节目观看最小时间t<sub>min</sub>、时间区间长度L、电视节目的主题T<sub>k</sub>(k=1,2,...n)的数量n;3)、根据用户观看每条电视节目的起始时间和结束时间分别计算出每条电视节目的观看时间t,如果t&lt;t<sub>min</sub>,则删除该条电视节目;4)、将d天的每一天按照从00:00:00到23:59:59依次等分成N个时间片段,从而得到d天的时间片段集S<sub>j,i</sub>={s<sub>1,1</sub>,s<sub>1,2</sub>,...s<sub>1,i</sub>,s<sub>2,1</sub>,s<sub>2,2</sub>,...s<sub>2,i</sub>,...s<sub>j,2</sub>,...s<sub>j,i</sub>},其中<img file="FDA0001117068170000011.GIF" wi="181" he="111" />s<sub>j,i</sub>表示第i(i=1,2,...d)天的第j(j=1,2,...N)个时间片段,s<sub>j</sub>={s<sub>j,1</sub>,s<sub>j,2</sub>,...s<sub>j,i</sub>}表示第j(j=1,2,...N)个时间片段,通过时间片段集S<sub>j,i</sub>={s<sub>1,1</sub>,s<sub>1,2</sub>,...s<sub>1,i</sub>,s<sub>2,1</sub>,s<sub>2,2</sub>,...s<sub>2,i</sub>,...s<sub>j,2</sub>,...s<sub>j,i</sub>}与用户观看电视节目的天数d构建得到用户d天观看的电视节目集Q={q<sub>1,1</sub>,q<sub>1,2</sub>,...q<sub>1,j</sub>,q<sub>2,1</sub>,q<sub>2,2</sub>,...q<sub>2,j</sub>,...q<sub>i,2</sub>,...q<sub>i,j</sub>},其中,q<sub>i,j</sub>表示该用户在第i天的第j个时间片段s<sub>j,i</sub>里观看的电视节目集;5)、利用隐含狄利克雷分布(LDA)模型对电视节目集Q进行分析,得到n个关于电视节目的主题T<sub>k</sub>(k=1,2,...n),以及每个电视节目分别落在主题T<sub>k</sub>(k=1,2,...n)下的概率TPP={P<sub>1,1</sub>,…P<sub>1,k</sub>,…,P<sub>1,n</sub>,…,P<sub>p,1</sub>,…P<sub>p,k</sub>,…,P<sub>p,n</sub>},其中,P<sub>p,k</sub>表示电视节目p落在主题T<sub>k</sub>下的概率;6)、对每个主题T<sub>k</sub>(k=1,2,...n)下的电视节目按照其在该主题T<sub>k</sub>(k=1,2,...n)下的概率TPP从大到小依次进行排序,选取该主题T<sub>k</sub>(k=1,2,...n)下前5个电视节目作为该主题T<sub>k</sub>(k=1,2,...n)下隐含的偏好电视节目,并将该偏好电视节目的特征作为该主题T<sub>k</sub>(k=1,2,...n)隐含的特征;7)、对于步骤4中得到的每个用户观看电视节目集Q的每个元素q<sub>i,j</sub>中的电视节目p,根据其在n个主题T<sub>k</sub>(k=1,2,...n)下的概率分布为{P<sub>p,1</sub>,…,P<sub>p,n</sub>},当<img file="FDA0001117068170000023.GIF" wi="622" he="86" />则将该电视节目p替换为其对应的主题T<sub>k</sub>(k=1,2,...n);8)、根据<img file="FDA0001117068170000021.GIF" wi="635" he="183" />得到用户在各个时间片段中各个主题T<sub>k</sub>(k=1,2,...n)的分布比例,其中,Count(T<sub>k</sub>|s<sub>j</sub>)表示主题T<sub>k</sub>(k=1,2,...n)在第j个时间片段s<sub>j</sub>={s<sub>j,1</sub>,s<sub>j,2</sub>,...s<sub>j,i</sub>}出现的总次数;9)、将步骤9中得到的该用户在第j个时间片段s<sub>j</sub>={s<sub>j,1</sub>,s<sub>j,2</sub>,...s<sub>j,i</sub>}里观看的主题T<sub>k</sub>(k=1,2,...n)的分布比例<img file="FDA0001117068170000022.GIF" wi="609" he="190" />按照从大到小进行排序,选取前m个分布比例累加和大于0.8的主题T<sub>k</sub>(k=1,2...n)作为用户在该时间片段s<sub>j</sub>={s<sub>j,1</sub>,s<sub>j,2</sub>,...s<sub>j,i</sub>}内的偏好主题,从而得到每个时间片段的m个偏好主题;10)、将步骤9中得到的每个时间片段的偏好主题以及该偏好主题下的5个偏好电视节目、偏好节目特征作为预测结果。
地址 510006 广东省广州市番禺区广州大学城外环西路100号