主权项 |
一种基于互联网海量信息的随机事件演化即时跟踪方法,其特征在于,首先为事件构建事件空间,事件空间中包含有一组特征向量,每个特征向量中包含有一组主题词,然后进行如下步骤:步骤1:从当前互联网搜索引擎采集第i篇页面文本对象T<sub>i</sub>,进行事件空间的增长;进行事件空间的增长的方法是:提取当前事件空间的全部特征向量的主题词,统计每个主题词在当前文本对象T<sub>i</sub>中的词频,若第j个特征向量V<sub>j</sub>的某个主题词的词频大于0,则更新该特征向量V<sub>j</sub>的命中篇频,并存储当前文本对象T<sub>i</sub>对该主题词的词频;i、j为正整数;步骤2:从当前文本对象T<sub>i</sub>中删除当前事件空间的全部主题词,然后计算信息增量向量;计算信息增量向量的方法是:提取当前历史特征集合的全部历史特征向量的主题词,统计每个主题词在当前文本对象T<sub>i</sub>中的词频,若第k个历史特征向量h<sub>k</sub>的某个主题词的词频大于0,则更新该历史特征向量h<sub>k</sub>的命中篇频,并存储当前文本对象T<sub>i</sub>对该主题词的词频;所述的历史特征集合初始为空;k为正整数;步骤3:从当前文本对象T<sub>i</sub>中删除当前历史特征集合中的全部主题词,然后从当前文本对象T<sub>i</sub>中提取新特征向量;从当前文本对象T<sub>i</sub>中提取新特征向量的方法是:判断当前文本对象T<sub>i</sub>中是否存在词频超过阈值A的新词,若不存在,执行步骤4;若存在,则将所有词频超过阈值A的新词作为主题词生成一个历史特征向量,并将生成的历史特征向量存储在历史特征集合中,然后执行步骤4;步骤4:在历史特征集合中提取命中篇频最大的历史特征向量NV,提取历史特征向量NV中词频最大的前m个文本对象,在所提取的m个文本对象中,统计历史特征向量NV的每个主题词的词频,然后判断所统计的各主题词的词频是否均大于阈值B,若是,则将当前历史特征向量NV作为有效特征向量添加到当前事件空间中;否则,放弃当前步骤的操作,执行步骤5;m为正整数;步骤5:从当前事件空间中提取命中篇频最大的特征向量Vmax与命中篇频最小的特征向量Vmin,计算两个特征向量Vmax与Vmin的命中篇频的差值,判断所得差值是否超过阈值C,若是,则将当前事件空间判定为临界裂解状态,执行步骤6,否则,转步骤7执行;步骤6:将特征向量Vmax作为裂解向量,提取命中特征向量Vmax的全部文本对象集合S<sub>2</sub>,统计当前事件空间中除去特征向量Vmax以外的特征向量,在文本对象集合S<sub>2</sub>中的命中篇频,所得到的命中篇频称为与特征向量Vmax的相关度,然后判断是否能够在当前事件空间中提取相关度高于阈值D的特征向量,若否,当前事件空间为不可裂解空间,执行步骤7;若是,相关度高于阈值D的特征向量与特征向量Vmax共同组成新的事件空间,并删除当前事件空间中对应的特征向量,完成裂解;步骤7:以当前事件空间或新的事件空间中特征向量主题词更新互联网搜索引擎的主题词,进行后续文本处理工作。 |