一种网络舆情的热点预测和分析方法,申请号CN200910214401.6-传众专利搜索

发明名称	一种网络舆情的热点预测和分析方法
摘要	本发明涉及一种网络舆情的热点预测和分析方法，包括以下步骤：步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型，根据处理结果将舆情信息分为热点舆情和普通舆情，对热点舆情发出预警；步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型，从参与人数分布和时间状态分布上，对所输入的普通舆情信息进行数值模式匹配，检测出步骤(1)所漏检的热点舆情信息；步骤(3)、对热点舆情进行分析；步骤(4)、对热点舆情进行预测。本发明将内容和数值表现结合在一起，是一种综合的舆情热点监控方法，预测时间短，且预测效果准确。
申请公布号	CN101763401B	申请公布日期	2012.05.30
申请号	CN200910214401.6	申请日期	2009.12.30
申请人	暨南大学	发明人	姚国祥;罗伟其;官全龙;宋嘎子;陈凤其
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州市华学知识产权代理有限公司 44245	代理人	陈燕娴
主权项	1.一种网络舆情的热点预测和分析方法，其特征在于包括以下步骤：步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型，根据处理结果将舆情信息分为热点舆情和普通舆情，对热点舆情发出预警；步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型，从参与人数分布和时间状态分布上，对所输入的普通舆情信息进行数值模式匹配，检测出步骤(1)所漏检的热点舆情信息；步骤(3)、对热点舆情进行分析；步骤(4)、对热点舆情进行预测；步骤(1)中所述的基于内容快速识别的热点舆情预测模型建立过程如下：步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息，并将所收集的热点舆情信息分为M类，得到分类信息；步骤(12)、对步骤(11)所得的分类信息进行预处理；步骤(13)、提取类关键词特征，其中用向量空间模型表示每个类，每一类表示为：Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win；...)其中Ci表示第i个热点类，Tij表示Ci中的第j个关键词，Wij表示Tij在Ci中的权重，j＝1，2，……，n；步骤(14)、基于内容的分类计算，建立类别空间向量，从而构建热点舆情预测模型；对于待测舆情信息I，采用中文信息预处理，获得长度大于2的名词、动词和名动词序列I＝(I1，I2，...，Im)，计算待测舆情信息I属于每个类的类别值I\|Ci：<maths num="0001"><![CDATA[<math><mrow><mi>I</mi><mo>\|</mo><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>I</mi><mo>\|</mo><msub><mi>C</mi><mi>i</mi></msub><mo>+</mo><msub><mi>W</mi><mi>ik</mi></msub></mtd><mtd><msub><mi>I</mi><mi>j</mi></msub><mo>=</mo><msub><mi>T</mi><mi>ik</mi></msub><mo>,</mo><mn>1</mn><mo>≤</mo><mi>j</mi><mo>≤</mo><mi>m</mi><mo>,</mo><mn>1</mn><mo>≤</mo><mi>K</mi><mo>≤</mo><mi>n</mi></mtd></mtr><mtr><mtd><mi>I</mi><mo>\|</mo><msub><mi>C</mi><mi>i</mi></msub></mtd><mtd><msub><mi>I</mi><mi>j</mi></msub><mo>&NotEqual;</mo><msub><mi>T</mi><mi>ik</mi></msub><mo>,</mo><mn>1</mn><mo>≤</mo><mi>j</mi><mo>≤</mo><mi>m</mi><mo>,</mo><mn>1</mn><mo>≤</mo><mi>K</mi><mo>≤</mo><mi>n</mi></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>设H(I)为预设阈值，若I\|Ci≥H(I)，且I\|Ci最大，则待测舆情信息I为Ci类热点舆情信息；若<img file="FSB00000688176000012.GIF" wi="169" he="50" />I\|C<sub>i</sub>＜H(I)，则待测舆情信息I为普通舆情信息；步骤(2)中所述的基于数值表现的热点预测模型建立过程如下：步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M＝{M1，M2，..，Mm}，总热点舆情信息数为m，获取每个热点舆情信息Mi，在Δt时间内的浏览人数BNi，回帖人数RNi，回帖时间间隔序列Si，其中i＝1，2，......，m；得到浏览人数BNi的数组{BNi1，BNi2，...，BNij，...}，回帖人数Rni的数组{RNi1，RNi2，...，RNij，...}，时间间隔序列Si的数组{Si1，Si2，...，Sij，...}；步骤(22)、计算浏览人数的热点阈值H(BN)；对于<img file="FSB00000688176000021.GIF" wi="111" he="49" />1≤i≤m，计算：<maths num="0002"><![CDATA[<math><mrow><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>BN</mi><msub><mi>i</mi><mi>j</mi></msub></msub></mrow><mi>n</mi></mfrac><mo>;</mo></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><msqrt><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>BN</mi><mi>ij</mi></msub><mo>-</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></msqrt><mn>2</mn></msub><mo>;</mo></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>BN</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mrow><mo>(</mo><msub><mover><mi>BN</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>-</mo><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths>步骤(23)、计算回复人数的热点阈值H(RN)；对于<img file="FSB00000688176000025.GIF" wi="112" he="50" />1≤i ≤m<maths num="0005"><![CDATA[<math><mrow><mover><msub><mi>RN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>RN</mi><msub><mi>i</mi><mi>j</mi></msub></msub></mrow><mi>n</mi></mfrac><mo>;</mo></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><msqrt><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>BN</mi><mi>ij</mi></msub><mo>-</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></msqrt><mn>2</mn></msub><mo>;</mo></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>BN</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mrow><mo>(</mo><msub><mover><mi>BN</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>-</mo><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths>步骤(24)、计算时间间隔热点阈值<img file="FSB00000688176000029.GIF" wi="127" he="75" />和D(S)；<maths num="0008"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mover><mi>S</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mover><msup><msub><mi>S</mi><mi>i</mi></msub><mo>′</mo></msup><mo>&OverBar;</mo></mover></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths><maths num="0009"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msqrt><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>2</mn></mrow><mi>n</mi></munderover><msup><mrow><mo>(</mo><msub><mi>S</mi><msub><mi>i</mi><mi>j</mi></msub></msub><mo>-</mo><mover><msup><msub><mi>S</mi><mi>i</mi></msub><mo>′</mo></msup><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths>其中Si′＝{Si2，...，Sin}，<maths num="0010"><![CDATA[<math><mrow><mover><msup><msub><mi>S</mi><mi>i</mi></msub><mo>′</mo></msup><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>2</mn></mrow><mi>n</mi></munderover><msub><mi>S</mi><msub><mi>i</mi><mi>j</mi></msub></msub></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>;</mo></mrow></math>]]></maths>步骤(25)、建立基于数值表现的热点预测模型；对于待检测舆情信息I′有：<1>.计算Δt时间内，待检测舆情信息I′的浏览人数BN，若BN≥H(BN)，则待检测舆情信息I′为热点舆情信息，对热点舆情信息进行预警；否则进行下一步运算；<2>.计算Δt时间内，待检测舆情信息I′的回复人数RN，若RN≥H(RN)，则待检测舆情信息I′为热点舆情信息，对热点舆情信息进行预警；否则进行下一步运算；<3>.计算Δt时间内，待检测舆情信息I′的回复时间间隔序列S′＝{S1′，S2′，...，Sk′}；若k＜5，则回帖没有超过5个，待检测舆情信息I′为普通舆情；若K≥5，则计算{S2′，...，Sk′}的<img file="FSB000006881760000213.GIF" wi="136" he="76" />和D(S′)，若<img file="FSB000006881760000214.GIF" wi="664" he="90" />则待检测舆情信息I′为热点舆情信息，否则待检测舆情信息I′为普通舆情，终止预测；步骤(13)中所述Wij的值通过TFIDF公式计算：<maths num="0011"><![CDATA[<math><mrow><msub><mi>W</mi><mi>ij</mi></msub><mo>=</mo><mi>TFIDF</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>TF</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>log</mi><mfrac><mrow><mo>\|</mo><mi>C</mi><mo>\|</mo></mrow><mrow><mo>\|</mo><mi>DF</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>\|</mo></mrow></mfrac></mrow></math>]]></maths>其中，Ti代表具有某一特征的关键词；Cj表示该关键词所在的类别文本；TF(T<sub>i</sub>，C<sub>j</sub>)表示Ti在Cj类中各个信息文档中出现的频率；\|C\|代表所有类别中的所有训练信息文档的数目，即<img file="FSB00000688176000031.GIF" wi="361" he="123" />DF(Ti)表示包含关键词Ti的类数；对每个类按照权重递减排序，选取前n个作为该类的代表，余下的作为备选，此时每个类可以表示为：Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win)。
地址	510632 广东省广州市黄埔大道西601号