发明名称 从文本文档中检测热点事件的方法和设备
摘要 本发明的实施方式提供了一种从文本文档中检测热点事件的方法。该方法包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中。本发明的方法可以解决现有技术中因短文本文档的特征的数量有限而导致的热点事件的检测准确性不高的问题,以及,现有技术中无法根据文档簇直观、明了地确定热点事件的内容的问题。此外,本发明的另一方面提供了一种从文本文档中检测热点事件的设备,例如,服务器上安装的软件。
申请公布号 CN103823792B 申请公布日期 2017.01.11
申请号 CN201410082915.1 申请日期 2014.03.07
申请人 网易(杭州)网络有限公司 发明人 杨路军;潘照明
分类号 G06F17/22(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京信远达知识产权代理事务所(普通合伙) 11304 代理人 赵百令;刘大玲
主权项 一种从文本文档中检测热点事件的方法,包括:A)、对在当前采样周期所采集的文本文档进行分词处理,从而得到候选词;B)、从所述候选词中筛选出其词频大于或等于预设词频阈值,和/或,词频增长率大于或等于预设增长率阈值的候选词作为热点词;C)、将所述热点词分组,将属于同一事件的热点词分到同一个组中;其中,所述步骤C)包括:C1)、构建所述热点词的词向量,其中,所述词向量的分量为所述热点词分别在当前采样周期的前M个采样周期的词频,M为任意一个非零整数;C2)、对所述热点词的词向量进行归一化处理;C3)、计算归一化处理后的每两个热点词的词向量之间的相似度,作为每两个热点词之间的相似度;C4)、计算1与每两个热点词之间的相似度的差值,作为每两个热点词之间的距离;C5)、基于每两个热点词之间的距离,对所有热点词进行聚类处理,得到多个簇,一个簇即为一个组,从而将属于同一事件的热点词分到同一个组中。
地址 310052 浙江省杭州市滨江区长河街道网商路599号4幢7层