发明名称 一种基于互联网海量信息的随机事件演化即时跟踪方法
摘要 本发明提出了一种基于互联网海量信息的随机事件演化即时跟踪方法。该方法以基本特征要素构成事件的初始空间向量,在跟踪过程中,以这一初始空间向量为基础,对互联网增量信息的高频词熵值进行计算与统计,将这一熵值作为事件演化动力,确定事件空间特征向量的增长与结构性变化,利用增量信息向量与事件临界空间向量的熵值对比实现新事件空间的稳定裂解,实现衍生/次生事件的识别与跟踪。本发明提供的方法以增量信息的熵值作为事件演化的动力,能够有效满足具有突发性、随机性事件的跟踪、预警/预测等工作的需要;同时,具有高度的专题性,避免海量信息处理活动中计算节点与网络负载较重的普遍现象,具有良好的可靠性与可扩展性。
申请公布号 CN102929927B 申请公布日期 2015.09.09
申请号 CN201210353440.6 申请日期 2012.09.20
申请人 北京航空航天大学 发明人 郭皓明;武群惠;张秀红;刘允桢;刘海;梁峰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 周长琪
主权项 一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤:步骤1:从当前互联网搜索引擎采集第i篇页面文本对象T<sub>i</sub>,进行事件空间的增长;进行事件空间的增长的方法是:提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象T<sub>i</sub>中的词频,若第j个特征向量V<sub>j</sub>的某个主题词的词频大于0,则更新该特征向量V<sub>j</sub>的命中篇频,并存储当前文本对象T<sub>i</sub>对该主题词的词频;i、j为正整数;步骤2:从当前文本对象T<sub>i</sub>中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是:提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象T<sub>i</sub>中的词频,若第k个历史特征向量h<sub>k</sub>的某个主题词的词频大于0,则更新该历史特征向量h<sub>k</sub>的命中篇频,并存储当前文本对象T<sub>i</sub>对该主题词的词频;所述的历史特征集合初始为空;k为正整数;步骤3:从当前文本对象T<sub>i</sub>中删除当前历史特征集合中的全部主题词,然后从当前文本对象T<sub>i</sub>中提取新特征向量;从当前文本对象T<sub>i</sub>中提取新特征向量的方法是:判断当前文本对象T<sub>i</sub>中是否存在词频超过阈值A的新词,若不存在,执行步骤4;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4;步骤4:在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5;m为正整数;步骤5:从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行;步骤6:将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S<sub>2</sub>,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S<sub>2</sub>中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前事件空间中对应的特征向量,完成裂解;步骤7:以当前事件空间或新的事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。
地址 100191 北京市海淀区学院路37号