发明名称 一种基于概率图模型的中文新闻主题协同分割方法
摘要 本发明公开了一种基于概率图模型的中文新闻主题协同分割方法,该方法包括以下步骤:步骤一,对所输入的非可靠中文新闻文本文档构建图模型和进行前景、背景主题模型的初始化;步骤二,前景和背景主题模型的修正;步骤三,构建能量方程;步骤四,能量方程的优化求解,得到协同分割结果。本发明直接利用数据间的关联性就可以做到语义级的分割效果,对于弥补底层特征和高层语义之间的鸿沟有较大的帮助;同时,有助于提高对海量非可靠文本类中文新闻故事主题提取和分割的可靠性和处理能力。本发明能够提高对海量非可靠文本类中文新闻故事分割的精度和通用性,从而便于对中文新闻故事主题的自动分析和处理。
申请公布号 CN103106191A 申请公布日期 2013.05.15
申请号 CN201310022041.6 申请日期 2013.01.21
申请人 天津大学 发明人 冯伟;万亮;聂学成
分类号 G06F17/27(2006.01)I;G06F17/24(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 李素兰
主权项 1.一种基于概率图模型的中文新闻主题协同分割方法,其特征在于,该方法包括以下步骤:步骤一,构建图模型和进行前景、背景主题模型初始化,构建图模型具体包括步骤:首先,将输入的两个及以上中文新闻故事脚本文档分别按照固定长度分成一系列的伪句子,将这些伪句子映射成为图中的节点;其次,分两部分组成图模型中的边,即一部分边由同一输入文档中相邻节点连接而成,另一部分边则是由不同输入文档的所有节点对连接而成;进行前景、背景主题模型的初始化具体包括步骤:基于构建的所述图模型,将所述输入文档中属于共同主题的句子集合当作前景故事标记为1,而其他的句子集合则将被当作背景故事标记为0;将所述输入文档中的所有节点,以聚类的方式分成K类,通过最小化下面的差异值来选出最可能的类作为前景主题的初始化模型,差异值公式为:<maths num="0001"><![CDATA[<math><mrow><mi>Ds</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>&gamma;</mi><mo>|</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><msubsup><mi>C</mi><mi>k</mi><mn>1</mn></msubsup><mo>,</mo><msubsup><mi>C</mi><mi>k</mi><mn>2</mn></msubsup><mo>)</mo></mrow></mrow><mrow><mi>max</mi><mrow><mo>(</mo><msubsup><mi>C</mi><mi>k</mi><mn>1</mn></msubsup><mo>,</mo><msubsup><mi>C</mi><mi>k</mi><mn>2</mn></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mn>1</mn><mo>|</mo><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&gamma;</mi><mo>)</mo></mrow><msub><mrow><mo>|</mo><mo>|</mo><mi>H</mi><mrow><mo>(</mo><msubsup><mi>C</mi><mi>k</mi><mn>1</mn></msubsup><mo>)</mo></mrow><mo>-</mo><mi>H</mi><mrow><mo>(</mo><msubsup><mi>C</mi><mi>k</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub></mrow></math>]]></maths>其中,<img file="FDA00002758441800012.GIF" wi="275" he="84" />表示第k个非空类;<img file="FDA00002758441800013.GIF" wi="55" he="57" />(j∈{1,2})表示在C<sub>k</sub>类中属于不同文档的节点子集;H(·)表示词语在字典上的分布;0≤γ≤1是线性调节参数;通过枚举所有类的差异值来选择最可能相似的类作为前景主题的初始化模型F<sup>(0)</sup>,利用各输入文档中的其它节点构成各自的背景主题初始化模型<img file="FDA00002758441800014.GIF" wi="79" he="59" />和<img file="FDA00002758441800015.GIF" wi="291" he="77" />步骤二,前景和背景主题模型的修正,即:计算当前标定为前景的句子集合的词频分布,并对其进行归一化操作,归一化的结果即为修正后的前景主题模型;对于背景模型的修正算法与前景模型一致,计算当前标定为背景的句子集合的词频分布,并对其进行归一化操作,归一化的结果即为修正后的背景主题模型;根据当前背景和背景的0-1标记结果,将前景主题初始化模型F<sup>(t)</sup>、各自的背景主题初始化模型<img file="FDA00002758441800016.GIF" wi="73" he="60" />和<img file="FDA00002758441800017.GIF" wi="286" he="60" />分别更新为修正后的前景主题模型H(F<sup>(t)</sup>)、修正后的背景主题模型<img file="FDA00002758441800018.GIF" wi="151" he="77" />和<img file="FDA00002758441800019.GIF" wi="423" he="87" />其中t表示当前迭代的次数;步骤三,构建能量方程:<maths num="0002"><![CDATA[<math><mrow><mi>E</mi><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>d</mi><mo>=</mo><mn>1</mn></mrow><mn>2</mn></munderover><msub><mi>E</mi><mi>intra</mi></msub><mrow><mo>(</mo><msub><mi>X</mi><mi>d</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>&beta;</mi><msub><mi>E</mi><mi>inter</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中X={X<sub>1</sub>,X<sub>2</sub>……,X<sub>n</sub>}表示所述输入文档中所有节点的0-1标记变量的集合;E<sub>intra</sub>(·)是所述输入文档内能量项,用来衡量同一输入文档中前景和背景标记的好坏程度,所述好程度指的是输入文档中的新闻故事具有较高的类内相似度和空间连续性;所述坏程度则与上述好程度含义相反;<maths num="0003"><![CDATA[<math><mrow><msub><mi>E</mi><mi>intra</mi></msub><mrow><mo>(</mo><msub><mi>X</mi><mi>d</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><msub><mi>X</mi><mi>d</mi></msub><mo>|</mo></mrow></munderover><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>d</mi></mrow></msub><msub><mrow><mo>|</mo><mo>|</mo><mi>H</mi><mrow><mo>(</mo><msup><mi>F</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></msup><mo>)</mo></mrow><mo>-</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>s</mi><mrow><mi>i</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>)</mo></mrow><msub><mrow><mo>|</mo><mo>|</mo><mi>H</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mi>d</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>-</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>s</mi><mrow><mi>i</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>+</mo><mi>&alpha;</mi><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>~</mo><mi>j</mi></mrow></munder><mo>|</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>-</mo><msub><mi>x</mi><mrow><mi>j</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>|</mo><mo>)</mo></mrow></mrow></math>]]></maths>E<sub>intra</sub>(·)中的第一部分表示文档d中第i个节点被标定为前景1或背景0的误差,第二部分则反映了相邻句子间的聚合性,0≤α≤1是用来调节这两部分相对影响的参数;E<sub>inter</sub>(·)是文档间能量项,用来衡量两个文档中关于共同主题的故事段落间的相似程度:<maths num="0004"><![CDATA[<math><mrow><msub><mi>E</mi><mi>inter</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mrow><mi>p</mi><mo>&Element;</mo><msubsup><mi>C</mi><mi>k</mi><mn>1</mn></msubsup></mrow></msub><msub><mi>x</mi><mi>p</mi></msub><mo>-</mo><msub><mi>&Sigma;</mi><mrow><mi>q</mi><mo>&Element;</mo><msubsup><mi>C</mi><mi>k</mi><mn>2</mn></msubsup></mrow></msub><msub><mi>x</mi><mi>q</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></math>]]></maths>总体上,文档间能量项E<sub>inter</sub>(·)在直方图分布上保证了所述输入文档中被标定为的共同前景主题的故事段落之间的相似性;步骤四,能量方程的优化求解:首先使用QPBO去最小化原始的能量方程,由于QPBO具有部分最优化解的继承性,保留由QPBO求解出来的所有0-1标记,之后使用BP去近似的最小化简化后的能量方程;由此得到一个所有句子的0-1标记解X;根据当前的X,我们更新下一步迭代中的前景和背景主题模型F<sup>(t+1)</sup>、<img file="FDA00002758441800024.GIF" wi="102" he="60" />和<img file="FDA00002758441800025.GIF" wi="337" he="77" />如此迭代步骤二至步骤四,直到获得满意的分割结果,即误差小于给定阈值或迭代步数达到指定上限,算法终止。
地址 300072 天津市南开区卫津路92号