发明名称 面向网络流式数据的事件实时过滤方法和系统
摘要 本发明提供一种面向网络流式数据的事件实时过滤方法,该方法响应于加载事件规则的请求来加载事件规则,并根据所加载的事件规则对网络流式数据进行过滤。该方法采用事件触发方式去更换过滤文本所使用的事件规则,可以适应各种业务类型。而且采用多通道方式进行文档过滤,使得不同的文本数据可以共享事件规则。既可以适应不同的文本数据,又可以提高系统的处理效率。
申请公布号 CN103198146B 申请公布日期 2015.05.27
申请号 CN201310136896.1 申请日期 2013.04.19
申请人 中国科学院计算技术研究所 发明人 程学旗;刘盛华;邱文一;王元卓;刘悦;莫溢;黄展坤
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 一种面向网络流式数据的事件实时过滤方法,所述方法包括:步骤1)响应于加载事件规则的请求来加载事件规则,所述事件规则包括过滤规则列表和信息源范围;步骤2)根据所加载的事件规则对网络流式数据进行过滤;其中所述步骤1)包括:(1)接收加载事件规则的请求;(2)判断目前是否存在正在被用于建Trie树的事件规则;(3)如果存在,则备份事件规则,如果之前有已经备份的事件规则,则覆盖;如果不存在直接建立并保存临时Trie树;(4)判断全局Trie树是否存在并且被使用;如果不存在或者没有被使用则使用该新建的临时Trie树来更新全局Trie树;否则等待全局Trie树使用完毕之后再更新全局Trie树;(5)判断是否有备份的事件规则,如果有,则返回(2)继续执行,如果没有,则结束;以及,所述步骤2)包括:步骤b1,读取一组文档并将其封装成文本序列;步骤b2:判断Trie树是否建立完毕,如果全局Trie树已经建好则进行下一步,否则等待一秒;步骤b3:利用全局Trie树对所组织的文本序列进行关键词匹配;步骤b4:基于该所加载的事件规则中的过滤规则对步骤b3扫描全局trie树得到的匹配结果进行解析,以得到符合过滤规则列表中所有过滤规则的文档;步骤b5:过滤掉不在事件规则要求的信息源范围之中的文档;步骤b6:输出并保存过滤结果,并返回步骤b1。
地址 100190 北京市海淀区中关村科学院南路6号