主权项 |
1.一种基于主题遗传的在线主题建模方法,其特征在于,包括步骤1:令时间片t<sub>n</sub>为当前时间片,抓取时间片t<sub>n</sub>中<img file="FDA0000456775900000011.GIF" wi="92" he="62" />个文本的数据,得到词表<img file="FDA0000456775900000012.GIF" wi="97" he="66" />步骤2:按照LDA模型进行主题建模,得到文本<img file="FDA0000456775900000013.GIF" wi="67" he="75" />的文本-主题分布向量<img file="FDA0000456775900000014.GIF" wi="63" he="84" />和主题<img file="FDA0000456775900000015.GIF" wi="60" he="75" />的主题-单词分布向量<img file="FDA0000456775900000016.GIF" wi="104" he="75" />其中,m为文本序号,<img file="FDA0000456775900000017.GIF" wi="354" he="70" />k为主题序号,k=1,2,..,K,K为主题总数;步骤3:计算主题强度<img file="FDA0000456775900000018.GIF" wi="191" he="96" />步骤4:根据主题强度<img file="FDA0000456775900000019.GIF" wi="160" he="96" />作出主题排名<img file="FDA00004567759000000110.GIF" wi="177" he="75" />步骤5:根据主题排名<img file="FDA00004567759000000111.GIF" wi="144" he="75" />计算主题的遗传因子<img file="FDA00004567759000000112.GIF" wi="102" he="75" /><maths num="0001"><![CDATA[<math><mrow><msubsup><mi>ω</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>=</mo><mi>a</mi><mo>+</mo><mfrac><mrow><mi>b</mi><mo>-</mo><mi>a</mi></mrow><mi>K</mi></mfrac><mrow><mo>(</mo><mi>K</mi><mo>-</mo><msubsup><mi>Rank</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>)</mo></mrow><mo>,</mo><msubsup><mi>Rank</mi><mi>k</mi><msub><mi>t</mi><mi>n</mi></msub></msubsup><mo>∈</mo><mo>[</mo><mn>1</mn><mo>,</mo><mi>K</mi><mo>]</mo><mo>;</mo></mrow></math>]]></maths>其中,a、b为遗传因子的上、下限;步骤6:抓取下一个时间片t<sub>n+1</sub>中<img file="FDA00004567759000000136.GIF" wi="105" he="61" />个文本的数据,得到词表<img file="FDA00004567759000000114.GIF" wi="117" he="66" />步骤7:将词表<img file="FDA00004567759000000115.GIF" wi="62" he="63" />上的主题-单词分布向量<img file="FDA00004567759000000116.GIF" wi="66" he="75" />转换为词表<img file="FDA00004567759000000117.GIF" wi="82" he="63" />上的主题-单词分布向量<img file="FDA00004567759000000118.GIF" wi="111" he="75" />步骤8:计算下一个时间片t<sub>n+1</sub>的主题的Dirichlet分布先验参数<img file="FDA00004567759000000119.GIF" wi="120" he="75" /><img file="FDA00004567759000000120.GIF" wi="634" he="95" />其中,<maths num="0002"><![CDATA[<math><mrow><msup><mi>γ</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>=</mo><mrow><mo>(</mo><msubsup><mi>γ</mi><mn>1</mn><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msup><mi>γ</mi><mrow><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo></mrow><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>)</mo></mrow></mrow></math>]]></maths>是平衡向量,且<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>γ</mi><mi>i</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msubsup><mo>=</mo><mn>1</mn><mo>/</mo><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo><mo>,</mo><mi>i</mi><mo>∈</mo><mo>[</mo><mn>1</mn><mo>,</mo><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo><mo>]</mo><mo>,</mo><mo>|</mo><msup><mi>V</mi><msub><mi>t</mi><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow></msub></msup><mo>|</mo></mrow></math>]]></maths>是t<sub>n+1</sub>时间片的词表<img file="FDA00004567759000000123.GIF" wi="87" he="63" />的大小;步骤9:采用Gibbs采样方法进行主题建模,得到文本<img file="FDA00004567759000000124.GIF" wi="85" he="75" />的文本-主题分布向量<img file="FDA00004567759000000125.GIF" wi="80" he="84" />和主题<img file="FDA00004567759000000126.GIF" wi="76" he="75" />的主题-单词分布向量<img file="FDA00004567759000000127.GIF" wi="118" he="75" />其中,<img file="FDA00004567759000000128.GIF" wi="365" he="70" />步骤10:令时间片t<sub>n+1</sub>为当前时间片t<sub>n</sub>,重复步骤3至步骤9。 |