一种基于Hadoop的应用层协议特征提取方法,申请号CN201310034462.0-传众专利搜索

发明名称	一种基于Hadoop的应用层协议特征提取方法
摘要	本发明公开了一种基于Hadoop的应用层协议特征提取方法，利用Hadoop平台的MapReduce模型，对目标应用层协议数据包进行扫描，根据最小支持数从备选项筛选出频繁项，并通过组合高位备选项再筛选频繁项的方法找出最长频繁项，再在所有频繁项中用偏移量筛选出互不重叠的频繁项作为特征字段顺序组合形成特征串，根据最小支持数在特征串中筛选出能反映目标应用层协议特征的最终特征串，完成目标应用层协议特征的提取。采用本发明只需要扫描一遍目标应用层协议数据，就能准确的提取出应用层协议的特征，改善了人为进行应用层协议特征提取在面对海量协议数据时的局限性以及特征确定的主观性。
申请公布号	CN103095718A	申请公布日期	2013.05.08
申请号	CN201310034462.0	申请日期	2013.01.29
申请人	电子科技大学	发明人	孙健;陈小英;徐杰;隆克平;张毅;李乾坤;王晓丽;梁雪芬;姚洪泽;陈旭
分类号	H04L29/06(2006.01)I;H04L29/08(2006.01)I;H04L12/70(2013.01)I	主分类号	H04L29/06(2006.01)I
代理机构	成都行之专利代理事务所(普通合伙) 51220	代理人	温利平
主权项	1.一种基于Hadoop的应用层协议特征提取方法，其特征在于包括以下步骤：（1）、从网络上捕获需要提取特征的目标应用层协议的流量数据包，存储为文本格式；（2）、对文本格式的数据包进行预处理，去掉数据包中与协议无关的数据，去掉链路层、网络层和传输层的协议数据，得到目标应用层协议数据包，对每个目标应用层协议数据包进行标记以示区别，设置最小支持度a，得到最小支持数n=N×a；（3）、对步骤（2）得到的目标应用层协议数据包进行扫描，采用Hadoop平台的Map函数提取备选项，并存储每个备选项对应的数据包标记以及备选项相对于该数据包起始位置的偏移量；（4）、采用Hadoop平台的Reduce函数统计相同备选项对应的不同的数据包标记个数，作为该备选项的支持数，如果支持数≥最小支持数n，则将备选项作为频繁项进行存储，否则不做任何操作；统计得到的频繁项数量，如果频繁项数量≥2，进入步骤（5），否则进入步骤（6）；（5）、采用Hadoop平台的Map函数分离频繁项对应的数据包标记，采用Hadoop平台的Reduce函数将数据包标记相同的频繁项集中，将此时频繁项位数记为k；对于数据包标记相同的频繁项两两计算偏移量之差，如果两个频繁项偏移量相差为2，将偏移量小的频繁项的前2位与偏移量大的频繁项顺序组合成k+2位的高位备选项，高位备选项的偏移量为偏移量小的频繁项的偏移量，否则不做任何操作；统计生成的高位备选项个数，如果大于零，返回步骤（4）从新生成的高位备选项中选出频繁项，如果等于零，进入步骤（6）；（6）、读取步骤（4）产生的所有频繁项，采用Hadoop平台的Map函数分离频繁项对应的数据包标记，采用Hadoop平台的Map函数函数将数据包标记相同的频繁项集中，根据频繁项偏移量进行特征字段筛选，筛选互不重叠的频繁项作为特征字段，得到N个目标应用层协议数据包对应的N组特征字段，第i,1≤i≤N组特征字段的数量为M<sub>i</sub>；（7）、采用Hadoop平台的Reduce函数依次对第i个目标应用层协议数据包进行特征字段组合特征字段组合：将M<sub>i</sub>个特征字段进行M<sub>i</sub>次组合，在第s次组合时，任意s个特征字段按偏移量顺序组合为特征串，得到<img file="FDA00002791450000021.GIF" wi="97" he="95" />个特征串，M<sub>i</sub>次组合共计得到<img file="FDA00002791450000022.GIF" wi="89" he="63" />个特征串；（8）、对步骤（7）得到的N个目标应用层协议数据包的所有特征串，采用Hadoop平台的Reduce函数统计相同特征串对应的不同的数据包标记个数作为该特征串的支持数，若支持数≥最小支持数n，则将该特征串作为待定特征串；对待定特征串数据包标记进行识别，如果有任意两个及以上待定特征串具有相同的数据包标记，则保留最长的待定特征串，删除其他具有相同数据包标记的待定特征串；将识别后的待定特征串作为目标应用层协议的最终特征串。
地址	611731 四川省成都市高新区（西区）西源大道2006号