基于混合模型的WEB文本情感主题识别方法,申请号CN200910219161.9-传众专利搜索

发明名称	基于混合模型的WEB文本情感主题识别方法
摘要	本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练，真实模拟不同情感倾向以及不同主题的文本语言表达模式，将情感表达与主题表达的语言方式模型化，分别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本，通过将其自身模型与这两类模型进行比较，评估它与两类模型之间的相似程度，最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识，捕捉和探寻情感及主题表达的特性和规律，充分利用语言表达的特点和惯，建立能够同时分析识别主题和情感的混合模型，情感识别的平均准确率由现有技术的67.81％提高到81.36％。
申请公布号	CN101876985B	申请公布日期	2012.08.29
申请号	CN200910219161.9	申请日期	2009.11.26
申请人	西北工业大学	发明人	蔡皖东;樊娜
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	西北工业大学专利中心 61204	代理人	黄毅新
主权项	1.一种基于混合模型的WEB文本情感主题识别方法，其特征在于包括以下步骤：第一步，设X是文档的集合X＝{x1，x2，...，xn}，C表示类别的集合，C＝{c<sub>1</sub>，c<sub>2</sub>，...，c<sub>k</sub>}，c<sub>i</sub>∪c<sub>j</sub>＝φ，<img file="FSB00000729700800011.GIF" wi="152" he="47" />x的密度函数为：<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>\|</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>采用Kullback-Liebler测度作为衡量类别之间差别的判据；两个概率分布q(x)与p(x)之间的KL距离定义为：<maths num="0002"><![CDATA[<math><mrow><mi>KL</mi><mrow><mo>(</mo><mi>q</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>\|</mo><mo>\|</mo><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mo>&Integral;</mo><mi>q</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mi>ln</mi><mo>[</mo><mfrac><mrow><mi>q</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></mfrac><mo>]</mo><mi>dx</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>当q(x)＝p(x)时，KL距离等于0；数据x在第i类上的概率密度函数为q(x)＝p(x\|c<sub>i</sub>)，密度函数p(x)与q(x)之间的KL距离定义为：ψ＝-KL(p(x\|c<sub>i</sub>)\|\|p(x)) (3)对于情感模型，i＝2，表示有“褒义”模型和“贬义”模型两种模型；对于主题模型，i＝s，s是从训练集合中估计的主题模型的个数；第二步，应用MLE方法对模型参数的初步估计如下：<maths num="0003"><![CDATA[<math><mrow><msub><mi>P</mi><mi>M</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>\|</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>count</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>count</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>式(4)中，T代表褒义文本集合，贬义文本集合或者主题文本集合；count(w<sub>i</sub>)表示w<sub>i</sub>在T中出现的次数，相应的count(r)表示任意一个词在T中出现的次数；模型参数的平滑计算定义如下：P<sub>s</sub>(w<sub>i</sub>\|T)＝λP<sub>M</sub>(w<sub>i</sub>\|T)+(1-λ)P(w<sub>i</sub>\|C) (5)式(5)中，λ是一个平滑参数，0＜λ＜1；第三步，按照式(6)情感模型的距离函数定义距离：θ(t，δ<sub>P</sub>，δ<sub>N</sub>)＝d<sub>1</sub>-d<sub>2</sub> (6)其中t表示待处理文本，δ<sub>P</sub>和δ<sub>N</sub>分别表示“褒”模型和“贬”模型，d1代表文本t与“褒”模型之间的KL距离，而d2代表文本t“贬”模型之间的KL距离；当θ大于0，表明待处理文本更接近“贬”模型，判断文本表达的感情为贬斥类；反之，当θ小于0，判断其为褒扬类；当θ等于0，表示文本表达的情感中立；主题模型的距离函数定义如下：θ(t，γ<sub>1</sub>，...，γ<sub>s</sub>)＝d<sub>min</sub>(t，r<sub>i</sub>) (7)其中，r<sub>i</sub>表示第i个主题模型，d<sub>min</sub>(t，r<sub>i</sub>)表示待处理文本自身模型与各个主题模型之间最小的KL距离；若文本与第i个主题模型之间的KL距离最小，则认为该文本的主题为第i个主题。
地址	710072 陕西省西安市友谊西路127号