发明名称 一种基于用户兴趣模型的电影个性化相似度计算方法
摘要 本发明公开了一种基于用户兴趣模型的电影个性化相似度计算方法,该方法根据用户的历史行为,即通过个性化电影推荐系统平台,挖掘用户对电影资源库的各种搜索行为以及观影和收藏行为;充分挖掘和分析不同用户在电影的演员、导演、类型、地区、时间、内容简介这六个基本属性上的不同的偏爱程度,即得到用户模型的第一层六维空间向量表示;根据用户上述行为,通过关键字提取或者语义分析,分析不同用户在上述六个维度上各特征值所占的权重,即得到用户模型的第二层六维空间向量表示;用一个两层的多维空间向量表示用户的兴趣模型,基于用户的兴趣模型和电影的基本内容特征,针对不同用户生成不同的电影相似度列表,从而提高推荐的效果。
申请公布号 CN104462385A 申请公布日期 2015.03.25
申请号 CN201410753644.8 申请日期 2014.12.10
申请人 山东科技大学 发明人 赵建立;张春升;吴文敏;孟芳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南舜源专利事务所有限公司 37205 代理人 陈海滨
主权项 一种基于老用户兴趣模型的电影个性化相似度计算方法,其特征在于,包括步骤:s1、基于某段时间T内的用户行为数据和该段时间内观影记录中评价最高的N部电影,建立用户动态行为信息库;s2、对上述用户动态行为信息库进行数据挖掘,得到用户对电影各维度的偏好、以及用户对电影中各维度上特征值的偏好,构建用户兴趣模型;其中,(1)用户对电影各维度的偏好采用空间向量可表示为一个六元组,即:V={V<sub>1</sub>:w<sub>1</sub>,V<sub>2</sub>:w<sub>2</sub>,V<sub>3</sub>:w<sub>3</sub>,V<sub>4</sub>:w<sub>4</sub>,V<sub>5</sub>:w<sub>5</sub>,,V<sub>6</sub>:w<sub>6</sub>}  (1.1)V<sub>i</sub>表示电影的维度,w<sub>i</sub>表示用户对电影各个维度的权重,i∈[1,6],且<img file="FDA0000629240750000011.GIF" wi="213" he="147" />通过对用户的搜索行为、条件查询行为的统计分析,以及对T段时间内用户高评分的N部电影的特征提取,挖掘用户在演员、导演、类型、地区、时间和内容简介六个维度不同的偏好程度,求得各维度权重w<sub>i</sub>;(2)用户对电影中各维度上特征值的偏好可表示为:V<sub>i</sub>={T<sub>ij</sub>:W<sub>ij</sub>}  (1.2)式中,T<sub>ij</sub>为第i维度中的第j个特征值,W<sub>ij</sub>为第i维度中特征值j的权重,且<img file="FDA0000629240750000012.GIF" wi="227" he="141" />通过用户的搜索行为,挖掘用户感兴趣的演员和导演信息,通过用户对类型、时间、地区不同条件下的筛选查看,挖掘用户对这三个维度上感兴趣的特征值信息;通过分析用户高评分的N条观影记录和收藏记录,提取电影各维度特征值信息;综合以上分析,计算各维度各特征值的权重,即:V<sub>ij</sub>=w<sub>i</sub>*W<sub>ij</sub>  (1.3)式中,V<sub>ij</sub>表示在第i维度中第j个特征值的兴趣度,i∈[1,6],j∈[1,n);s3、通过用户兴趣模型对电影六个维度的分析,根据公式(1.4)计算电影A和电影B之间各维度的相似度,生成个性化电影相似度表;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>sim</mi><mrow><mo>(</mo><msup><msub><mi>M</mi><mi>i</mi></msub><mi>A</mi></msup><mo>,</mo><msup><msub><mi>M</mi><mi>i</mi></msub><mi>B</mi></msup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mrow><mo>(</mo><msub><mi>M</mi><mi>A</mi></msub><mo>&cap;</mo><msub><mi>M</mi><mi>B</mi></msub><mo>)</mo></mrow></mrow></munder><mrow><mo>(</mo><msubsup><mi>V</mi><mi>ij</mi><mi>A</mi></msubsup><mo>+</mo><msubsup><mi>V</mi><mi>ij</mi><mi>B</mi></msubsup><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1.4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000629240750000013.GIF" wi="1015" he="182" /></maths>式中,i∈[1,4],分别表示电影的演员、导演、类型、地区四个维度,j表示维度上特征值,V<sub>ij</sub>表示电影在第i个维度上第j个特征值的权重;电影A和电影B在时间维度上的相似度计算公式为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>sim</mi><mrow><mo>(</mo><msup><msub><mi>M</mi><mn>5</mn></msub><mi>A</mi></msup><mo>,</mo><msup><msub><mi>M</mi><mn>5</mn></msub><mi>B</mi></msup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><mo>|</mo><mi>Date</mi><mo>-</mo><msub><mi>D</mi><mi>A</mi></msub><mo>|</mo><mo>,</mo><mo>|</mo><mi>Date</mi><mo>-</mo><msub><mi>D</mi><mi>B</mi></msub><mo>|</mo><mo>)</mo></mrow></mrow><mrow><mi>max</mi><mrow><mo>(</mo><mo>|</mo><mi>Date</mi><mo>-</mo><msub><mi>D</mi><mi>A</mi></msub><mo>|</mo><mo>,</mo><mo>|</mo><mi>Date</mi><mo>-</mo><msub><mi>D</mi><mi>B</mi></msub><mo>|</mo><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1.5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000629240750000021.GIF" wi="1125" he="158" /></maths>式中,Date表示当前的时间,D<sub>A</sub>表示电影A的发布时间,D<sub>B</sub>表示电影B的发布时间,min()表示取最小值,max()表示取最大值;电影A和电影B在内容简介维度上的相似度计算公式为sim(M<sub>6</sub><sup>A</sup>,M<sub>6</sub><sup>B</sup>),利用Simhash算法计算得到;s4、根据s2和s3中得到的各维度权重及其各维度相似度,利用公式(1.6)计算电影相似度:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>Sim</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>i</mi><mo>=</mo><mn>6</mn></mrow></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>&CenterDot;</mo><mi>sim</mi><mrow><mo>(</mo><msup><msub><mi>M</mi><mi>i</mi></msub><mi>A</mi></msup><mo>,</mo><msup><msub><mi>M</mi><mi>i</mi></msub><mi>B</mi></msup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1.6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000629240750000022.GIF" wi="783" he="148" /></maths>式中,w<sub>i</sub>表示对应各维度的权重,sim(M<sub>i</sub><sup>A</sup>,M<sub>i</sub><sup>B</sup>)表示对应各维度的相似度,i∈[1,6]。
地址 266590 山东省青岛市经济技术开发区前湾港路579号