发明名称 基于混合模型的WEB文本情感主题识别方法
摘要 本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练,真实模拟不同情感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本,通过将其自身模型与这两类模型进行比较,评估它与两类模型之间的相似程度,最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识,捕捉和探寻情感及主题表达的特性和规律,充分利用语言表达的特点和惯,建立能够同时分析识别主题和情感的混合模型,情感识别的平均准确率由现有技术的67.81%提高到81.36%。
申请公布号 CN101876985B 申请公布日期 2012.08.29
申请号 CN200910219161.9 申请日期 2009.11.26
申请人 西北工业大学 发明人 蔡皖东;樊娜
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 黄毅新
主权项 1.一种基于混合模型的WEB文本情感主题识别方法,其特征在于包括以下步骤:第一步,设X是文档的集合X={x1,x2,...,xn},C表示类别的集合,C={c<sub>1</sub>,c<sub>2</sub>,...,c<sub>k</sub>},c<sub>i</sub>∪c<sub>j</sub>=φ,<img file="FSB00000729700800011.GIF" wi="152" he="47" />x的密度函数为:<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>采用Kullback-Liebler测度作为衡量类别之间差别的判据;两个概率分布q(x)与p(x)之间的KL距离定义为:<maths num="0002"><![CDATA[<math><mrow><mi>KL</mi><mrow><mo>(</mo><mi>q</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mo>&Integral;</mo><mi>q</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mi>ln</mi><mo>[</mo><mfrac><mrow><mi>q</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac><mo>]</mo><mi>dx</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>当q(x)=p(x)时,KL距离等于0;数据x在第i类上的概率密度函数为q(x)=p(x|c<sub>i</sub>),密度函数p(x)与q(x)之间的KL距离定义为:ψ=-KL(p(x|c<sub>i</sub>)||p(x))            (3)对于情感模型,i=2,表示有“褒义”模型和“贬义”模型两种模型;对于主题模型,i=s,s是从训练集合中估计的主题模型的个数;第二步,应用MLE方法对模型参数的初步估计如下:<maths num="0003"><![CDATA[<math><mrow><msub><mi>P</mi><mi>M</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>|</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>count</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>count</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>式(4)中,T代表褒义文本集合,贬义文本集合或者主题文本集合;count(w<sub>i</sub>)表示w<sub>i</sub>在T中出现的次数,相应的count(r)表示任意一个词在T中出现的次数;模型参数的平滑计算定义如下:P<sub>s</sub>(w<sub>i</sub>|T)=λP<sub>M</sub>(w<sub>i</sub>|T)+(1-λ)P(w<sub>i</sub>|C)            (5)式(5)中,λ是一个平滑参数,0<λ<1;第三步,按照式(6)情感模型的距离函数定义距离:θ(t,δ<sub>P</sub>,δ<sub>N</sub>)=d<sub>1</sub>-d<sub>2</sub>            (6)其中t表示待处理文本,δ<sub>P</sub>和δ<sub>N</sub>分别表示“褒”模型和“贬”模型,d1代表文本t与“褒”模型之间的KL距离,而d2代表文本t“贬”模型之间的KL距离;当θ大于0,表明待处理文本更接近“贬”模型,判断文本表达的感情为贬斥类;反之,当θ小于0,判断其为褒扬类;当θ等于0,表示文本表达的情感中立;主题模型的距离函数定义如下:θ(t,γ<sub>1</sub>,...,γ<sub>s</sub>)=d<sub>min</sub>(t,r<sub>i</sub>)            (7)其中,r<sub>i</sub>表示第i个主题模型,d<sub>min</sub>(t,r<sub>i</sub>)表示待处理文本自身模型与各个主题模型之间最小的KL距离;若文本与第i个主题模型之间的KL距离最小,则认为该文本的主题为第i个主题。
地址 710072 陕西省西安市友谊西路127号