发明名称 基于时间信息的关键子话题提取方法
摘要 本发明属于文本分析技术领域,具体是一种网络文本信息分析方法,尤其涉及一种基于时间信息的关键子话题提取方法。其步骤是,下载文本信息记录,提取其中的时间信息,再对相同时间点的文本的话题进行识别,然后定义并计算时间引用网络的节点关注度和关注度突变系数,最后根据突变系数与阈值的比较,确定关键子话题。本发明克服了目前基于关键词识别话题的各种方法所存在的问题,为准确确定关键子话题提供了一种有效的方法,适应于各种具有时间信息的文本集的计算机自动分析要求。
申请公布号 CN101609445A 申请公布日期 2009.12.23
申请号 CN200910054888.6 申请日期 2009.07.16
申请人 复旦大学 发明人 吴承荣;曾剑平;王巍
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 上海正旦专利代理有限公司 代理人 陆 飞;盛志范
主权项 1.基于时间信息的关键子话题提取方法,其特征在于具备具体步骤如下:(1)针对连续的跟踪报道,从互联网上下载相应的新闻报道文本信息记录,从而构成一个包含时间信息的事件文本数据集;(2)从新闻报道文本中提取时间点针对各个文本记录,从文本中寻找并提取事件的基本时间和引用时间;这里,基本时间是指新闻报道该事件的第一时间点,引用时间是指以基本时间为参考点的其它位置出现的时间点;时间的表达方法分为相对时间和绝对时间两种;在时间点的提取过程中,采用模式匹配的方法获取绝对时间点;根据汉语的习惯表达的各种方式获取相对时间点,并根据相对时间数字转换表,将相对时间转换为绝对时间;(3)在时间点提取的基础上,根据各个报道的绝对时间对文本集中相同基本时间的文本记录,采用聚类方法进行话题识别,得到与某个绝对时间对应的子话题描述;根据不同的基本时间,得到一系列子话题;(4)针对子话题与时间的对应关系,包括基本时间和引用时间,构造各个事件在不同时间点上的引用网络,这是一个含权的有向网络;网络节点表示与某个时间相关联的话题,网络,节点之间的连接及方向表示引用关系,网络边的权重表示引用的数量;(5)定义并计算时间引用网络的节点关注度,关注度的定义是节点的被引用数;(6)定义并计算关注度突变系数;(7)根据突变系数与阈值的比较,确定关键子话题。
地址 200433上海市邯郸路220号