发明名称 一种互联网新颖词监测方法
摘要 本发明公开了一种互联网新颖词监测方法,属于互联网信息挖掘领域。本发明方法包括下列步骤:根据目标信息源集合,获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章;对各个文章作分词处理,并为各个文章中的每个词语赋予权重,以权重最大的前a个词语作为该文章的备选新颖词,并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq;根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数n;根据新颖系数n确定新颖度θ,当某个备选新颖词的新颖度大于新颖度阈值θ<sub>t</sub>时,即认为该词语是当天的新颖词。本发明方法可以有效地发现当天的新颖词汇,指导互联网新信息发现和监管的实践。
申请公布号 CN101645066A 申请公布日期 2010.02.10
申请号 CN200810117821.8 申请日期 2008.08.05
申请人 北京大学 发明人 王超;梁循
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 代理人 余功勋
主权项 1.一种互联网新颖词监测方法,其特征在于,包括下列步骤:a)根据目标信息源集合,获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章;b)对各个文章作分词处理,并为各个文章中的每个词语赋予权重,以权重最大的前a个词语作为该文章的备选新颖词,并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq;c)根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数<maths num="0001"><![CDATA[<math><mrow><mi>n</mi><mo>=</mo><mrow><mo>(</mo><mi>freq</mi><mo>-</mo><mi>avg</mi><mo>)</mo></mrow><mo>/</mo><msqrt><mi>ceil</mi><mrow><mo>(</mo><mi>var</mi><mo>)</mo></mrow></msqrt><mo>,</mo></mrow></math>]]></maths>其中<maths num="0002"><![CDATA[<math><mrow><mi>avg</mi><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>b</mi></munderover><mi>freq</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow><mi>b</mi></mfrac><mo>,</mo></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><mi>var</mi><mo>=</mo><mfrac><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>b</mi></munderover><msup><mrow><mo>(</mo><mi>freq</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><mi>avg</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mi>b</mi></mfrac><mo>,</mo></mrow></math>]]></maths>ceil表示上取整函数;d)根据新颖系数n确定新颖度θ,当某个备选新颖词的新颖度大于新颖度阈值θ<sub>t</sub>时,即认为该词语是当天的新颖词。
地址 100871北京市海淀区颐和园路5号