发明名称 电影期望值的计算方法及系统
摘要 本发明揭示了一种电影期望值的计算方法,其方法包括:收集微博上即将上映电影的评论信息并进行人工标注获得训练样本,使用机器学的方法,用获得的标注样本训练最大熵分类器,从而完成对即将上影电影评论的自动分类,最后,通过对某一电影评论的分类结果进行计算获得该电影的期望值。本发明还公开了一种电影期望值的计算系统。本发明的方法和系统简单可行、省时省力,而且电影期望值的计算结果真实可靠。
申请公布号 CN102708164B 申请公布日期 2014.11.05
申请号 CN201210126129.8 申请日期 2012.04.26
申请人 苏州大学 发明人 李寿山;庞磊;周国栋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种电影期望值的计算方法,其特征在于,包括如下步骤:S1、采集待上映电影一的评论信息,对所述评论信息进行文字预处理,该文字预处理包括:去掉所述评论信息所对应的用户名、去掉所述评论信息中的网络链接以及将所述评论信息中的表情图片替换成相应的文本;S2、对所述待上映电影一的评论信息进行分词,将所述评论信息按情感分类标注为正面评论或负面评论,以获得训练样本;S3、利用所述训练样本作为训练语料训练最大熵分类器,其中,假设X是一个由特征构成的向量,变量y的值为样本的类别,p(y|X)是指系统对某个样本预测为某一类别的概率,最大熵模型要求p(y|X)在满足一定约束的条件下,必须使下面定义的熵取得最大值:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>X</mi><mo>,</mo><mi>y</mi></mrow></munder><mi>p</mi><mrow><mo>(</mo><mi>y</mi><mo>|</mo><mi>X</mi><mo>)</mo></mrow><mi>log</mi><mrow><mo>(</mo><mi>y</mi><mo>|</mo><mi>X</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000480164140000011.GIF" wi="706" he="131" /></maths>所述的约束条件是指所有已知的事实,用以下的方式来表述:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo><mi>if</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>satisifies certain condition</mi></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo><mi>else</mi><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2,3</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000480164140000012.GIF" wi="1100" he="169" /></maths>其中,f<sub>i</sub>(X,y)为最大熵模型的特征,n为所有特征的总数,最终概率输出为:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>y</mi><mo>|</mo><mi>Z</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>Z</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><msub><mi>&lambda;</mi><mi>i</mi></msub><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000480164140000013.GIF" wi="777" he="159" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>Z</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mi>y</mi></munder><mi>exp</mi><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><msub><mi>&lambda;</mi><mi>i</mi></msub><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000480164140000014.GIF" wi="713" he="173" /></maths>;S4、采集待上映电影二的评论信息;S5、利用所述最大熵分类器对待上映电影二的评论信息进行分类;S6、获取所述最大熵分类器的分类结果,计算待上映电影二的期望值。
地址 215123 江苏省苏州市工业园区仁爱路199号