发明名称 一种数字信息推荐预测模型的训练方法和系统
摘要 本发明提供一种数字信息推荐预测模型的训练方法和系统,该方法包括:1)接收打分数据;2)确定数字信息的不同类别,每个类别中包括多个项目,其中所述类别之间存在关联关系;3)基于所述关联关系建立所述模型并训练获得所述模型,其中所述模型中包括一个或多个和集合相关的参数,其中所述集合为与一个类别的项目相关的另一个类别的项目的集合或者多个与一个类别的项目相关的另一个类别的项目的集合的并集。上述训练的预测模型可以有效的在实际推荐中缓解用户打分数不足造成的可利用打分数据严重稀疏的问题,具有很好的推荐效果。
申请公布号 CN102495837B 申请公布日期 2014.05.07
申请号 CN201110339200.6 申请日期 2011.11.01
申请人 中国科学院计算技术研究所 发明人 鲁凯;王斌;史亮;李文娜;李锐;徐飞
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 1.一种数字信息推荐预测模型的训练方法,包括:1)接收打分数据;2)确定数字信息的不同类别,每个类别中包括多个项目,其中所述类别之间存在关联关系;3)基于所述关联关系建立所述模型并训练获得所述模型,其中所述模型为:<maths num="0001"><![CDATA[<math><mfenced open='' close=''><mtable><mtr><mtd><mover><msub><mi>r</mi><mi>ui</mi></msub><mo>^</mo></mover><msub><mrow><mo>=</mo><mi>b</mi></mrow><mi>ui</mi></msub><mo>+</mo><msup><msub><mi>q</mi><mi>i</mi></msub><mi>T</mi></msup><mrow><mo>(</mo><msub><mi>p</mi><mi>u</mi></msub><mo>+</mo><msup><mrow><mo>(</mo><mo>|</mo><mi>album</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>album</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow></munder><msub><mi>a</mi><mi>j</mi></msub><mo>+</mo><msup><mrow><mo>(</mo><mo>|</mo><mi>aritist</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>artist</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow></munder><msub><mi>t</mi><mi>j</mi></msub><mo>+</mo></mrow></mtd></mtr><mtr><mtd><mrow><msup><mrow><mo>(</mo><mo>|</mo><mi>genre</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>genre</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow></munder><msub><mi>g</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></math>]]></maths>其中b<sub>ui</sub>=μ+b<sub>u</sub>+b<sub>i</sub>,μ是所有已知打分值的平均打分值,b<sub>u</sub>是用户u所打的打分值相对于平均打分情况的偏差,b<sub>i</sub>是关于项目i的打分值相对于平均打分的偏差,p<sub>u</sub>是和用户u相关的特征向量,q<sub>i</sub>是和项目i相关的特征向量,album(u)表示与用户u打分的专辑相关联的项目集合,artist(u)表示与用户u打分的演唱家相关联的项目集合,genre(u)表示与用户u打分的流派相关的项目集合,|*|表示*集合中元素的个数,a<sub>j</sub>表示和集合album(u)相关的参数,t<sub>j</sub>表示和集合artist(u)相关的参数,g<sub>j</sub>表示和集合genre(u)相关的参数;或者,所述模型为:<maths num="0002"><![CDATA[<math><mrow><mover><msub><mi>r</mi><mrow><mi>u</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>^</mo></mover><mo>=</mo><msub><mi>b</mi><mi>ui</mi></msub><mo>+</mo><msup><msub><mi>q</mi><mi>i</mi></msub><mi>T</mi></msup><mrow><mo>(</mo><msub><mi>p</mi><mi>u</mi></msub><mo>+</mo><msup><mrow><mo>(</mo><mo>|</mo><mi>AGT</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>AGT</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow></munder><msub><mi>agt</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>其中,AGT(u)=album(u)Uaritist(u)U|genre(u)|,agt<sub>j</sub>表示和集合AGT(u)相关的参数。
地址 100190 北京市海淀区中关村科学院南路6号