发明名称 突发事件热点话题的识别与评估装置
摘要 一种突发事件热点话题的识别与评估装置,该装置设有文本获取、文本表示、话题聚类和话题评估共四个单元组成部件,本发明创新特点是:对新闻报道正文的裁剪只提取标题、导语及相关特征等信息,就将其作为热点话题识别的有效样本集;与现有的全文提取进行对比实验的结果表明,两者的结果相近似,但本发明操作大大简化。还使用改进的特征权值计算模型,与经典模型比较,前者的执行效率更好和文本表示能力适应性更强。对聚类出的话题利用模型评估热度值,所计算出的热点话题符合预期效果,更适应于突发事件新闻报道的特征。总之,本发明装置和方法在处理突发事件新闻报道文本过程中,其计算复杂度、结果准确性和实时性方面都具有良好性能。
申请公布号 CN102937960B 申请公布日期 2015.06.17
申请号 CN201210327979.4 申请日期 2012.09.06
申请人 北京邮电大学 发明人 陈莉萍;杜军平;宋茂强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 夏宪富
主权项 一种突发事件热点话题的识别与评估装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、文本表示单元、话题聚类单元和话题评估单元,其中:文本获取单元,用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库;文本表示单元,用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块,以及分词词典和停用词表两个数据库;话题聚类单元,负责对来自前述单元的特征词进行聚类处理:将描述相同话题的文档进行聚合,组成多个被称为簇的子集,使得每个簇中的各个文档之间相似性强,而簇间各文档的相似性弱;再用每个簇中特征权值最高的2~5个词语描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;设有:文档相似性计算模块和文档聚类模块;话题评估单元,负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估,并按照评估值大小对热点话题进行降序排序,为迅速把握后续的重要事件和研究话题的演化规律提供基础;设有:网络特征计算、热度评估、话题排序三个模块和特征向量数据库;所述话题评估单元中的各个模块和数据库的功能如下:网络特征计算模块,用于从正文数据库和特征向量数据库中提取并计算与热点话题关注度相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的各个网络特征属性;热度评估模块,用于根据网络特征计算模块计算得到的各个网络特征属性,建立热点话题的热度评估函数,并据此计算突发事件中每个话题在设定时间内的热度值;话题排序模块,负责依据热度评估模块处理后的热点话题的热度值的大小,对其进行降序排序,以2~5个特征词描述一个热点话题的方式进行展现,同时将排序结果数据存储于特征向量数据库中;特征向量数据库,用于分别存储文本表示单元中各模块的处理结果、话题聚类单元中各模块的处理结果和话题评估单元中各模块的处理结果。
地址 100876 北京市海淀区西土城路10号