发明名称 一种对互联网信息进行异常状态监测的方法
摘要 本发明提供了一种通过对互联网信息中热点词汇的频率所发生的变化进行监测,从而对互联网信息进行异常状态监测的方法。该方法包括以下步骤:一、获取通用词汇在当日互联网页中出现的当日词频数据;二、结合用户关注的热点词汇词典,确定互联网信息的当日关键词集合;三、确定每个当日关键词的权重;四、确定当日关键词的异常阀值;五、检测当日关键词的异常程度并确定当日热点互联网信息。本发明通过对互联网信息中热点词汇的频率所发生的变化进行监测,计算关键词的异常程度,对热点词汇的词频变化的异常程度进行预测和报警。可以使得互联网信息使用者在第一时间做出反应。
申请公布号 CN101296128A 申请公布日期 2008.10.29
申请号 CN200710098645.3 申请日期 2007.04.24
申请人 北京大学 发明人 梁循;陈华;杨健
分类号 H04L12/26(2006.01);G06F17/30(2006.01);G06F17/22(2006.01);G06F17/00(2006.01);G06F11/00(2006.01) 主分类号 H04L12/26(2006.01)
代理机构 北京君尚知识产权代理事务所 代理人 余功勋
主权项 1.一种对互联网信息进行异常状态监测的方法,所述的方法是结合用户关注的热点词汇词典,对用户关注的互联网信息进行异常状态的监测,其特征在于,包括以下步骤:(1)获取通用词汇在当日互联网页中出现的当日词频数据,并存入数据库;:(2)结合用户关注的热点词汇词典,确定每篇网页的当日关键词,合并所有网页的当日关键词,得到互联网信息的当日关键词集合{ti,i=1……M},M为当日关键词表中的关键词个数;(3)确定当日关键词的权重:根据每个当日关键词ti的互联网词频的历史数据,计算其历史均值μi、历史波动率σi,波动率为词频变化率的绝对值;定义qi=1/(cein(σi)),cein()是上取整函数,当日关键词ti的权重<math><mrow><mi>wi</mi><mo>=</mo><msub><mi>q</mi><mi>i</mi></msub><mo>/</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo></mrow>i=1时对应当日词频fi最小的当日关键词;(4)确定当日关键词的异常阀值:对于当日关键词ti,定义其异常阀值为σi’=σi+c(wi/w1),其中c是用户根据经验来给出的一个常数,代表词语异常阀值的膨胀;(5)检测当日关键词的异常程度并确定当日热点互联网信息:定义当日关键词的偏移度θi’=(fi-μi)/σi’,偏移度大的当日关键词所属的互联网信息即为当日热点互联网信息。
地址 100871北京市海淀区颐和园路5号