发明名称 基于稀疏学的突发事件摘要抽取方法
摘要 本发明公开一种基于稀疏学理论的突发事件摘要抽取方法,包括:获取突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个事件话题相关的文档集合;利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类,得到每个事件的话题聚类结果;根据最大边缘相关性方法(MMR),从聚类结果中抽取具有代表性的句子作为最终的摘要结果。采用本发明的技术方案,在突发事件爆发时,面对海量冗余的新闻报道流,为用户提供事件发展的最新状况信息。
申请公布号 CN106484797A 申请公布日期 2017.03.08
申请号 CN201610841942.1 申请日期 2016.09.22
申请人 北京工业大学 发明人 杨震;姚应哲
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06N5/02(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 张慧
主权项 一种基于稀疏学习理论的突发事件摘要抽取方法,其特征在于,包括以下步骤:步骤S1、获取TREC 2015Temporal Summarization track提供的21个突发事件话题,对每个突发事件话题进行查询扩展,得到事件话题的扩展话题词项集合;步骤S2、首先对TREC‑TS‑2015F‑RelOnly数据集进行解密,解压,解析,转换成TREC格式的数据,然后利用Lemur中调优的语言模型作为检索模型,根据每个事件查询扩展后的扩展话题词项对每个事件进行检索,获得与每个事件话题相关的文档集合;步骤S3、利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类,得到每个事件的话题聚类结果;步骤S4、根据最大边缘相关性方法(MMR),从聚类结果中抽取具有代表性的句子作为最终的摘要结果。
地址 100124 北京市朝阳区平乐园100号