发明名称 基于主题遗传的在线主题建模方法
摘要 本发明公开了一种基于主题遗传的在线主题建模方法,包括抓取当前时间片文本数据,按照LDA模型进行主题建模,计算主题强度,主题排名,计算主题的遗传因子,抓取下一个时间片文本数据,转换主题-单词分布向量,计算下一个时间片Dirichlet分布先验参数,采用Gibbs采样方法进行主题建模等步骤。本发明的有益效果在于:1、本发明是一种在线主题模型,适合处理时序文本流,可以较好地应用在舆情监控系统中;2、本发明在保留OLDA模型主题对齐特性的同时,根据主题强度为各个主题设置不同的遗传因子,改善了主题混合和新主题不易及时检测的缺陷;3、本发明的主题强度计算方法能够有效降低宽泛主题的得分。
申请公布号 CN103793478A 申请公布日期 2014.05.14
申请号 CN201410016179.X 申请日期 2014.01.14
申请人 四川大学 发明人 陈兴蜀;吴小松;王文贤;杜敏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都信博专利代理有限责任公司 51200 代理人 卓仲阳
主权项 1.一种基于主题遗传的在线主题建模方法,其特征在于,包括步骤1:令时间片t<sub>n</sub>为当前时间片,抓取时间片t<sub>n</sub>中<img file="FDA0000456775900000011.GIF" wi="92" he="62" />个文本的数据,得到词表<img file="FDA0000456775900000012.GIF" wi="97" he="66" />步骤2:按照LDA模型进行主题建模,得到文本<img file="FDA0000456775900000013.GIF" wi="67" he="75" />的文本-主题分布向量<img file="FDA0000456775900000014.GIF" wi="63" he="84" />和主题<img file="FDA0000456775900000015.GIF" wi="60" he="75" />的主题-单词分布向量<img file="FDA0000456775900000016.GIF" wi="104" he="75" />其中,m为文本序号,<img file="FDA0000456775900000017.GIF" wi="354" he="70" />k为主题序号,k=1,2,..,K,K为主题总数;步骤3:计算主题强度<img file="FDA0000456775900000018.GIF" wi="191" he="96" />步骤4:根据主题强度<img file="FDA0000456775900000019.GIF" wi="160" he="96" />作出主题排名<img file="FDA00004567759000000110.GIF" wi="177" he="75" />步骤5:根据主题排名<img file="FDA00004567759000000111.GIF" wi="144" he="75" />计算主题的遗传因子<img file="FDA00004567759000000112.GIF" wi="102" he="75" /><maths num="0001"><![CDATA[<math><mrow><msubsup><mi>&omega;</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>=</mo><mi>a</mi><mo>+</mo><mfrac><mrow><mi>b</mi><mo>-</mo><mi>a</mi></mrow><mi>K</mi></mfrac><mrow><mo>(</mo><mi>K</mi><mo>-</mo><msubsup><mi>Rank</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>)</mo></mrow><mo>,</mo><msubsup><mi>Rank</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>&Element;</mo><mo>[</mo><mn>1</mn><mo>,</mo><mi>K</mi><mo>]</mo><mo>;</mo></mrow></math>]]></maths>其中,a、b为遗传因子的上、下限;步骤6:抓取下一个时间片t<sub>n+1</sub>中<img file="FDA00004567759000000136.GIF" wi="105" he="61" />个文本的数据,得到词表<img file="FDA00004567759000000114.GIF" wi="117" he="66" />步骤7:将词表<img file="FDA00004567759000000115.GIF" wi="62" he="63" />上的主题-单词分布向量<img file="FDA00004567759000000116.GIF" wi="66" he="75" />转换为词表<img file="FDA00004567759000000117.GIF" wi="82" he="63" />上的主题-单词分布向量<img file="FDA00004567759000000118.GIF" wi="111" he="75" />步骤8:计算下一个时间片t<sub>n+1</sub>的主题的Dirichlet分布先验参数<img file="FDA00004567759000000119.GIF" wi="120" he="75" /><img file="FDA00004567759000000120.GIF" wi="634" he="95" />其中,<maths num="0002"><![CDATA[<math><mrow><msup><mi>&gamma;</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>=</mo><mrow><mo>(</mo><msubsup><mi>&gamma;</mi><mn>1</mn><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msup><mi>&gamma;</mi><mrow><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo></mrow><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>)</mo></mrow></mrow></math>]]></maths>是平衡向量,且<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>&gamma;</mi><mi>i</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msubsup><mo>=</mo><mn>1</mn><mo>/</mo><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo><mo>,</mo><mi>i</mi><mo>&Element;</mo><mo>[</mo><mn>1</mn><mo>,</mo><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo><mo>]</mo><mo>,</mo><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo></mrow></math>]]></maths>是t<sub>n+1</sub>时间片的词表<img file="FDA00004567759000000123.GIF" wi="87" he="63" />的大小;步骤9:采用Gibbs采样方法进行主题建模,得到文本<img file="FDA00004567759000000124.GIF" wi="85" he="75" />的文本-主题分布向量<img file="FDA00004567759000000125.GIF" wi="80" he="84" />和主题<img file="FDA00004567759000000126.GIF" wi="76" he="75" />的主题-单词分布向量<img file="FDA00004567759000000127.GIF" wi="118" he="75" />其中,<img file="FDA00004567759000000128.GIF" wi="365" he="70" />步骤10:令时间片t<sub>n+1</sub>为当前时间片t<sub>n</sub>,重复步骤3至步骤9。
地址 610065 四川省成都市武侯区一环路南一段24号