发明名称 基于多关键词的快速过滤方法
摘要 本发明公开了一种基于多关键词的快速过滤方法。该方法通过关键词编号,结构存储,过滤规则分解成原子规则,对内容逐字进行关键词查找的步骤实现。本发明基于多关键词的快速过滤方法大大提高了关键词过滤的性能,普通单CPU执行性能大概在100W次/秒,满足了高效和迅速的内容过滤,过滤性能约是普通正则过滤的2000倍以上。
申请公布号 CN106547878A 申请公布日期 2017.03.29
申请号 CN201610949845.4 申请日期 2016.10.26
申请人 北京微网通联股份有限公司 发明人 陈豪;弓伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 李光松
主权项 一种基于多关键词的快速过滤方法,其特征在于,包括如下步骤:1)将所有关键词编号,结构存储,采用首字编码的位置索引,相同首字的关键词顺序存储。记作集合A;2)将过滤规则分解成原子规则,原子规则即只含有单词组或“与关系”的多词组,如果原始规则中含有“或”,将被分解成多个原子规则,原子规则按照关键词编号增序排列,并对首词建立索引,相同首词的按编号增序存储,记作集合B;3)对内容逐字进行关键词查找,在A找出内容里的不同关键词集合C,并将C集合按关键词编号进行位流标记,对集合C逐词在B中进行查找,如果B中某个首词内的规则被C包含,则内容包含这个过滤规则,过滤结束。
地址 100084 北京市海淀区信息路7号院2号楼8层801