一种基于正则表达式的恶意搜索关键词识别方法,申请号CN201310401159.X-传众专利搜索

发明名称	一种基于正则表达式的恶意搜索关键词识别方法
摘要	本发明公开了一种基于正则表达式的恶意搜索关键词的识别方法，通过对已知的恶意搜索关键词集，利用分类器、广义后缀树和CSS算法提取特征片段；并根据提取的特征片段的出现频率建立关键词树，并且关键词树上的每条路径经过的特征片段都连成一个正则表达式；筛选和精简出正则表达式输出集，将正则表达式输出集做为阈值建立过滤器；利用过滤器识别和提取新恶意搜索关键词。本发明的利用正则表达式识别恶意搜索关键词，有速度快、误报率低、漏报率低的优点。并且通过最新识别出来的恶意搜索关键词，及时发现新的最近流行的网站漏洞，也可以通过恶意搜索关键词返回的网页了解包含潜在漏洞的网站以及网站内的安全薄弱点。
申请公布号	CN103455754A	申请公布日期	2013.12.18
申请号	CN201310401159.X	申请日期	2013.09.05
申请人	上海交通大学	发明人	邹福泰;白巍;潘道欣;易平
分类号	G06F21/50(2013.01)I	主分类号	G06F21/50(2013.01)I
代理机构	上海旭诚知识产权代理有限公司 31220	代理人	郑立
主权项	一种基于正则表达式的恶意搜索关键词识别方法，其特征在于，包括以下步骤：步骤（101）提取特征片段：根据已知的恶意搜索关键词集，利用分类器、广义后缀树和CSS算法提取特征片段；步骤（102）建立关键词树：整理与连接提取的所述特征片段建立一个关键词树，则所述关键词树上的每条路径经过的特征片段都连成一个正则表达式；步骤（103）建立过滤器：筛选和精简所有的所述正则表达式，得到最后的正则表达式输出集，将所述正则表达式输出集作为所述过滤器的阈值，建立过滤器；步骤（104）识别和提取恶意搜索关键词：利用所述过滤器对网络流量中根据HTTP Referer识别出的搜索引擎的搜索请求所包含的的关键词进行正则匹配识别，以发现恶意搜索攻击和提取新恶意搜索关键词，并将所述新恶意搜索关键词加入到所述已知的恶意搜索关键词集中；步骤（105）结束。
地址	200240 上海市闵行区东川路800号