发明名称 一种网络舆情的热点预测和分析方法
摘要 本发明涉及一种网络舆情的热点预测和分析方法,包括以下步骤:步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警;步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出步骤(1)所漏检的热点舆情信息;步骤(3)、对热点舆情进行分析;步骤(4)、对热点舆情进行预测。本发明将内容和数值表现结合在一起,是一种综合的舆情热点监控方法,预测时间短,且预测效果准确。
申请公布号 CN101763401B 申请公布日期 2012.05.30
申请号 CN200910214401.6 申请日期 2009.12.30
申请人 暨南大学 发明人 姚国祥;罗伟其;官全龙;宋嘎子;陈凤其
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 陈燕娴
主权项 1.一种网络舆情的热点预测和分析方法,其特征在于包括以下步骤:步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警;步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出步骤(1)所漏检的热点舆情信息;步骤(3)、对热点舆情进行分析;步骤(4)、对热点舆情进行预测;步骤(1)中所述的基于内容快速识别的热点舆情预测模型建立过程如下:步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息,并将所收集的热点舆情信息分为M类,得到分类信息;步骤(12)、对步骤(11)所得的分类信息进行预处理;步骤(13)、提取类关键词特征,其中用向量空间模型表示每个类,每一类表示为:Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win;...)其中Ci表示第i个热点类,Tij表示Ci中的第j个关键词,Wij表示Tij在Ci中的权重,j=1,2,……,n;步骤(14)、基于内容的分类计算,建立类别空间向量,从而构建热点舆情预测模型;对于待测舆情信息I,采用中文信息预处理,获得长度大于2的名词、动词和名动词序列I=(I1,I2,...,Im),计算待测舆情信息I属于每个类的类别值I|Ci:<maths num="0001"><![CDATA[<math><mrow><mi>I</mi><mo>|</mo><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>I</mi><mo>|</mo><msub><mi>C</mi><mi>i</mi></msub><mo>+</mo><msub><mi>W</mi><mi>ik</mi></msub></mtd><mtd><msub><mi>I</mi><mi>j</mi></msub><mo>=</mo><msub><mi>T</mi><mi>ik</mi></msub><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mi>m</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>K</mi><mo>&le;</mo><mi>n</mi></mtd></mtr><mtr><mtd><mi>I</mi><mo>|</mo><msub><mi>C</mi><mi>i</mi></msub></mtd><mtd><msub><mi>I</mi><mi>j</mi></msub><mo>&NotEqual;</mo><msub><mi>T</mi><mi>ik</mi></msub><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mi>m</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>K</mi><mo>&le;</mo><mi>n</mi></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>设H(I)为预设阈值,若I|Ci≥H(I),且I|Ci最大,则待测舆情信息I为Ci类热点舆情信息;若<img file="FSB00000688176000012.GIF" wi="169" he="50" />I|C<sub>i</sub><H(I),则待测舆情信息I为普通舆情信息;步骤(2)中所述的基于数值表现的热点预测模型建立过程如下:步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M={M1,M2,..,Mm},总热点舆情信息数为m,获取每个热点舆情信息Mi,在Δt时间内的浏览人数BNi,回帖人数RNi,回帖时间间隔序列Si,其中i=1,2,......,m;得到浏览人数BNi的数组{BNi1,BNi2,...,BNij,...},回帖人数Rni的数组{RNi1,RNi2,...,RNij,...},时间间隔序列Si的数组{Si1,Si2,...,Sij,...};步骤(22)、计算浏览人数的热点阈值H(BN);对于<img file="FSB00000688176000021.GIF" wi="111" he="49" />1≤i≤m,计算:<maths num="0002"><![CDATA[<math><mrow><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>BN</mi><msub><mi>i</mi><mi>j</mi></msub></msub></mrow><mi>n</mi></mfrac><mo>;</mo></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>BN</mi><mi>ij</mi></msub><mo>-</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></msqrt><mn>2</mn></msub><mo>;</mo></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>BN</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mrow><mo>(</mo><msub><mover><mi>BN</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>-</mo><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths>步骤(23)、计算回复人数的热点阈值H(RN);对于<img file="FSB00000688176000025.GIF" wi="112" he="50" />1≤i ≤m<maths num="0005"><![CDATA[<math><mrow><mover><msub><mi>RN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>RN</mi><msub><mi>i</mi><mi>j</mi></msub></msub></mrow><mi>n</mi></mfrac><mo>;</mo></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>BN</mi><mi>ij</mi></msub><mo>-</mo><mover><msub><mi>BN</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></msqrt><mn>2</mn></msub><mo>;</mo></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>BN</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mrow><mo>(</mo><msub><mover><mi>BN</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>-</mo><mi>D</mi><mrow><mo>(</mo><msub><mi>BN</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths>步骤(24)、计算时间间隔热点阈值<img file="FSB00000688176000029.GIF" wi="127" he="75" />和D(S);<maths num="0008"><![CDATA[<math><mrow><mi>H</mi><mrow><mo>(</mo><mover><mi>S</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mover><msup><msub><mi>S</mi><mi>i</mi></msub><mo>&prime;</mo></msup><mo>&OverBar;</mo></mover></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths><maths num="0009"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>2</mn></mrow><mi>n</mi></munderover><msup><mrow><mo>(</mo><msub><mi>S</mi><msub><mi>i</mi><mi>j</mi></msub></msub><mo>-</mo><mover><msup><msub><mi>S</mi><mi>i</mi></msub><mo>&prime;</mo></msup><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow><mi>m</mi></mfrac><mo>;</mo></mrow></math>]]></maths>其中Si′={Si2,...,Sin},<maths num="0010"><![CDATA[<math><mrow><mover><msup><msub><mi>S</mi><mi>i</mi></msub><mo>&prime;</mo></msup><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>2</mn></mrow><mi>n</mi></munderover><msub><mi>S</mi><msub><mi>i</mi><mi>j</mi></msub></msub></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>;</mo></mrow></math>]]></maths>步骤(25)、建立基于数值表现的热点预测模型;对于待检测舆情信息I′有:&lt;1&gt;.计算Δt时间内,待检测舆情信息I′的浏览人数BN,若BN≥H(BN),则待检测舆情信息I′为热点舆情信息,对热点舆情信息进行预警;否则进行下一步运算;&lt;2&gt;.计算Δt时间内,待检测舆情信息I′的回复人数RN,若RN≥H(RN),则待检测舆情信息I′为热点舆情信息,对热点舆情信息进行预警;否则进行下一步运算;&lt;3&gt;.计算Δt时间内,待检测舆情信息I′的回复时间间隔序列S′={S1′,S2′,...,Sk′};若k<5,则回帖没有超过5个,待检测舆情信息I′为普通舆情;若K≥5,则计算{S2′,...,Sk′}的<img file="FSB000006881760000213.GIF" wi="136" he="76" />和D(S′),若<img file="FSB000006881760000214.GIF" wi="664" he="90" />则待检测舆情信息I′为热点舆情信息,否则待检测舆情信息I′为普通舆情,终止预测;步骤(13)中所述Wij的值通过TFIDF公式计算:<maths num="0011"><![CDATA[<math><mrow><msub><mi>W</mi><mi>ij</mi></msub><mo>=</mo><mi>TFIDF</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>TF</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>log</mi><mfrac><mrow><mo>|</mo><mi>C</mi><mo>|</mo></mrow><mrow><mo>|</mo><mi>DF</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow></math>]]></maths>其中,Ti代表具有某一特征的关键词;Cj表示该关键词所在的类别文本;TF(T<sub>i</sub>,C<sub>j</sub>)表示Ti在Cj类中各个信息文档中出现的频率;|C|代表所有类别中的所有训练信息文档的数目,即<img file="FSB00000688176000031.GIF" wi="361" he="123" />DF(Ti)表示包含关键词Ti的类数;对每个类按照权重递减排序,选取前n个作为该类的代表,余下的作为备选,此时每个类可以表示为:Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win)。
地址 510632 广东省广州市黄埔大道西601号
您可能感兴趣的专利