发明名称 |
基于多关键词的快速过滤方法 |
摘要 |
本发明公开了一种基于多关键词的快速过滤方法。该方法通过关键词编号,结构存储,过滤规则分解成原子规则,对内容逐字进行关键词查找的步骤实现。本发明基于多关键词的快速过滤方法大大提高了关键词过滤的性能,普通单CPU执行性能大概在100W次/秒,满足了高效和迅速的内容过滤,过滤性能约是普通正则过滤的2000倍以上。 |
申请公布号 |
CN106547878A |
申请公布日期 |
2017.03.29 |
申请号 |
CN201610949845.4 |
申请日期 |
2016.10.26 |
申请人 |
北京微网通联股份有限公司 |
发明人 |
陈豪;弓伟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市京大律师事务所 11321 |
代理人 |
李光松 |
主权项 |
一种基于多关键词的快速过滤方法,其特征在于,包括如下步骤:1)将所有关键词编号,结构存储,采用首字编码的位置索引,相同首字的关键词顺序存储。记作集合A;2)将过滤规则分解成原子规则,原子规则即只含有单词组或“与关系”的多词组,如果原始规则中含有“或”,将被分解成多个原子规则,原子规则按照关键词编号增序排列,并对首词建立索引,相同首词的按编号增序存储,记作集合B;3)对内容逐字进行关键词查找,在A找出内容里的不同关键词集合C,并将C集合按关键词编号进行位流标记,对集合C逐词在B中进行查找,如果B中某个首词内的规则被C包含,则内容包含这个过滤规则,过滤结束。 |
地址 |
100084 北京市海淀区信息路7号院2号楼8层801 |