发明名称 一种自动识别文本所承载的情感概率的方法及系统
摘要 本发明公开了一种自动识别文本所承载的情感概率的方法及系统,该方法包括:获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该情感元的投票数据;对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元、及每个该情感元在每个文本中的得票率;根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该情感元的条件概率,并组成情感词典;针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的出现概率,计算该待识别文本对应每个情感元的概率。
申请公布号 CN104063399B 申请公布日期 2017.03.22
申请号 CN201310094618.4 申请日期 2013.03.22
申请人 杭州娄文信息科技有限公司 发明人 李青;权小军;饶洋辉;刘文印
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 梁挥;田景宜
主权项 一种自动识别文本所承载的情感概率的方法,其特征在于,包括:步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该文本对该情感元的投票数据;步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元、以及每个该情感元在每个文本中的得票率;步骤3,根据该预处理的结果,利用Gibbs抽样算法,计算该训练文本集中每个情感主题对应每个情感元的条件概率,以组成主题‑情感词典,或者,利用Gibbs抽样算法,计算该训练文本集中每个特征词对应每个该情感元的条件概率,以组成词‑情感词典;步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用每个该特征词在该待识别文本中的出现概率以及该主题‑情感词典,计算该待识别文本对应每个情感元的概率,或者,利用每个该特征词在该待识别文本中的出现概率以及该词‑情感词典,计算该待识别文本对应每个情感元的概率;其中,该步骤3进一步包括:步骤31,根据该情感元、该出现概率以及该得票率,利用Gibbs抽样算法,计算得到<img file="FDA0001183292950000011.GIF" wi="242" he="99" />和<img file="FDA0001183292950000012.GIF" wi="100" he="87" />其中,<img file="FDA0001183292950000013.GIF" wi="78" he="94" />为情感元e<sub>k</sub>被分配为情感主题z<sub>m</sub>的次数,<img file="FDA0001183292950000014.GIF" wi="68" he="79" />为文本d<sub>i</sub>被分配为情感主题z<sub>m</sub>的次数,<img file="FDA0001183292950000015.GIF" wi="70" he="85" />为特征词w<sub>j</sub>被分配为情感主题z<sub>m</sub>的次数;步骤32,利用<img file="FDA0001183292950000016.GIF" wi="402" he="175" />计算该训练文本集中每个该情感主题对应每个情感元的条件概率;或者,利用<img file="FDA0001183292950000017.GIF" wi="810" he="230" />计算该训练文本集中每个该特征词对应每个情感元的条件概率;其中,P(e<sub>k</sub>|w<sub>j</sub>)为特征词w<sub>j</sub>对应情感元e<sub>k</sub>的条件概率,P(e<sub>k</sub>|z<sub>m</sub>)为情感主题z<sub>m</sub>对应情感元e<sub>k</sub>的条件概率,P(w<sub>j</sub>|z<sub>m</sub>)为情感主题z<sub>m</sub>对应特征词w<sub>j</sub>的条件概率,P(z<sub>m</sub>)为情感主题z<sub>m</sub>的先验概率,Z为情感主题z<sub>m</sub>的集合;其中,<img file="FDA0001183292950000021.GIF" wi="461" he="199" /><maths num="0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>z</mi><mi>m</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>d</mi><mi>i</mi></msub><mo>&Element;</mo><mi>D</mi></mrow></munder><mfrac><mrow><msubsup><mi>c</mi><msub><mi>d</mi><mi>i</mi></msub><msub><mi>z</mi><mi>m</mi></msub></msubsup><mo>+</mo><mi>&alpha;</mi></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mrow><mo>(</mo><msubsup><mi>c</mi><msub><mi>d</mi><mi>i</mi></msub><msub><mi>z</mi><mi>m</mi></msub></msubsup><mo>+</mo><mi>&alpha;</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001183292950000022.GIF" wi="529" he="215" /></maths><maths num="0002"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>j</mi></msub><mo>|</mo><msub><mi>z</mi><mi>m</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>c</mi><msub><mi>w</mi><mi>j</mi></msub><msub><mi>z</mi><mi>m</mi></msub></msubsup><mo>+</mo><mi>&beta;</mi></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>W</mi></munderover><mrow><mo>(</mo><msubsup><mi>c</mi><msub><mi>w</mi><mi>j</mi></msub><msub><mi>z</mi><mi>m</mi></msub></msubsup><mo>+</mo><mi>&beta;</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001183292950000023.GIF" wi="502" he="223" /></maths> 其中,α,β和γ为超参数,E是情感元e<sub>k</sub>的集合,W是特征词w<sub>j</sub>的集合,D为训练文本集。
地址 310018 浙江省杭州市杭州经济技术开发区白杨街道6号大街452号2幢D0304-0308号房