基于主题遗传的在线主题建模方法,申请号CN201410016179.X-传众专利搜索

发明名称	基于主题遗传的在线主题建模方法
摘要	本发明公开了一种基于主题遗传的在线主题建模方法，包括抓取当前时间片文本数据，按照LDA模型进行主题建模，计算主题强度，主题排名，计算主题的遗传因子，抓取下一个时间片文本数据，转换主题-单词分布向量，计算下一个时间片Dirichlet分布先验参数，采用Gibbs采样方法进行主题建模等步骤。本发明的有益效果在于：1、本发明是一种在线主题模型，适合处理时序文本流，可以较好地应用在舆情监控系统中；2、本发明在保留OLDA模型主题对齐特性的同时，根据主题强度为各个主题设置不同的遗传因子，改善了主题混合和新主题不易及时检测的缺陷；3、本发明的主题强度计算方法能够有效降低宽泛主题的得分。
申请公布号	CN103793478A	申请公布日期	2014.05.14
申请号	CN201410016179.X	申请日期	2014.01.14
申请人	四川大学	发明人	陈兴蜀;吴小松;王文贤;杜敏
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	成都信博专利代理有限责任公司 51200	代理人	卓仲阳
主权项	1.一种基于主题遗传的在线主题建模方法，其特征在于，包括步骤1：令时间片t<sub>n</sub>为当前时间片，抓取时间片t<sub>n</sub>中<img file="FDA0000456775900000011.GIF" wi="92" he="62" />个文本的数据，得到词表<img file="FDA0000456775900000012.GIF" wi="97" he="66" />步骤2：按照LDA模型进行主题建模，得到文本<img file="FDA0000456775900000013.GIF" wi="67" he="75" />的文本-主题分布向量<img file="FDA0000456775900000014.GIF" wi="63" he="84" />和主题<img file="FDA0000456775900000015.GIF" wi="60" he="75" />的主题-单词分布向量<img file="FDA0000456775900000016.GIF" wi="104" he="75" />其中，m为文本序号，<img file="FDA0000456775900000017.GIF" wi="354" he="70" />k为主题序号，k＝1，2，..，K，K为主题总数；步骤3：计算主题强度<img file="FDA0000456775900000018.GIF" wi="191" he="96" />步骤4：根据主题强度<img file="FDA0000456775900000019.GIF" wi="160" he="96" />作出主题排名<img file="FDA00004567759000000110.GIF" wi="177" he="75" />步骤5：根据主题排名<img file="FDA00004567759000000111.GIF" wi="144" he="75" />计算主题的遗传因子<img file="FDA00004567759000000112.GIF" wi="102" he="75" /><maths num="0001"><![CDATA[<math><mrow><msubsup><mi>ω</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>=</mo><mi>a</mi><mo>+</mo><mfrac><mrow><mi>b</mi><mo>-</mo><mi>a</mi></mrow><mi>K</mi></mfrac><mrow><mo>(</mo><mi>K</mi><mo>-</mo><msubsup><mi>Rank</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>)</mo></mrow><mo>,</mo><msubsup><mi>Rank</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>&Element;</mo><mo>[</mo><mn>1</mn><mo>,</mo><mi>K</mi><mo>]</mo><mo>;</mo></mrow></math>]]></maths>其中，a、b为遗传因子的上、下限；步骤6：抓取下一个时间片t<sub>n+1</sub>中<img file="FDA00004567759000000136.GIF" wi="105" he="61" />个文本的数据，得到词表<img file="FDA00004567759000000114.GIF" wi="117" he="66" />步骤7：将词表<img file="FDA00004567759000000115.GIF" wi="62" he="63" />上的主题-单词分布向量<img file="FDA00004567759000000116.GIF" wi="66" he="75" />转换为词表<img file="FDA00004567759000000117.GIF" wi="82" he="63" />上的主题-单词分布向量<img file="FDA00004567759000000118.GIF" wi="111" he="75" />步骤8：计算下一个时间片t<sub>n+1</sub>的主题的Dirichlet分布先验参数<img file="FDA00004567759000000119.GIF" wi="120" he="75" /><img file="FDA00004567759000000120.GIF" wi="634" he="95" />其中，<maths num="0002"><![CDATA[<math><mrow><msup><mi>γ</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>=</mo><mrow><mo>(</mo><msubsup><mi>γ</mi><mn>1</mn><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msup><mi>γ</mi><mrow><mo>\|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>\|</mo></mrow><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>)</mo></mrow></mrow></math>]]></maths>是平衡向量，且<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>γ</mi><mi>i</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msubsup><mo>=</mo><mn>1</mn><mo>/</mo><mo>\|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>\|</mo><mo>,</mo><mi>i</mi><mo>&Element;</mo><mo>[</mo><mn>1</mn><mo>,</mo><mo>\|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>\|</mo><mo>]</mo><mo>,</mo><mo>\|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>\|</mo></mrow></math>]]></maths>是t<sub>n+1</sub>时间片的词表<img file="FDA00004567759000000123.GIF" wi="87" he="63" />的大小；步骤9：采用Gibbs采样方法进行主题建模，得到文本<img file="FDA00004567759000000124.GIF" wi="85" he="75" />的文本-主题分布向量<img file="FDA00004567759000000125.GIF" wi="80" he="84" />和主题<img file="FDA00004567759000000126.GIF" wi="76" he="75" />的主题-单词分布向量<img file="FDA00004567759000000127.GIF" wi="118" he="75" />其中，<img file="FDA00004567759000000128.GIF" wi="365" he="70" />步骤10：令时间片t<sub>n+1</sub>为当前时间片t<sub>n</sub>，重复步骤3至步骤9。
地址	610065 四川省成都市武侯区一环路南一段24号