发明名称 基于支持向量机与深层包检测的对等网络流量识别方法
摘要 基于支持向量机与深层包检测的对等网络流量识别方法,是一种用于对等网络流量监测的方法,该方法在有限的应用层协议特征库的支持下,通过机器学能够识别未知类型的对等网络流量,并达到较高的识别率。该方法结合了深层数据包检测技术与支持向量机技术的优点,在识别的过程中,通过基于深层数据包检测技术的识别方法自动采集样本数据,并周期性的进行支持向量机训练,可自行适应不同的应用环境。通过系统的决策模块动态选择系统的运行模式,以保持最高的识别准确率与识别效率。
申请公布号 CN101841440B 申请公布日期 2012.01.04
申请号 CN201010162186.2 申请日期 2010.04.30
申请人 南京邮电大学 发明人 孙知信;高同;宫婧
分类号 H04L12/26(2006.01)I;H04L12/56(2006.01)I;H04L29/06(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种基于支持向量机与深层数据包检测技术的对等网络流量识别方法,其特征在于该方法依据以下步骤实现:1)数据采集:数据采集的过程发生在网络接口层,截取报文中的源IP地址、源端口号、目标IP地址、目标端口号及IP协议,并为每个报文建立索引,经过数据采集后,形成一系列能够索引的流量捕捉文件;2)数据预处理:对流量捕捉文件进行预处理,抽取与流量外在特征无关的流量内在特征,并将所有的特征信息预处理成0~1之间的实数,然后进行加权处理作为支持向量机的输入的特征向量;经过预处理后,形成一系列与协议和端口无关的流特征向量组成的流量样本文件,并输入至待处理流缓冲区;3)决策判定:在学习模式、分类模式、积累模式下分别依据特定的规则做出决策,做出的决策将影响对未来工作模式的选择;4)模式选择:通过步骤3)中返回的决策结果,在学习模式、分类模式、积累模式中选择一种模式进行,初始的工作模式为积累模式;5)流量识别:在当前所处的模式下,依据特定的规则使用基于深层数据包检测与支持向量机技术的识别方法进行流量识别,识别过程结束后,转至步骤3),6)机器学习:当前所处模式为学习模式时,当基于深层数据包检测技术的识别与基于支持向量机技术的识别过程结束后,则进行支持向量机训练;此时将对支持向量机训练样本中的训练数据集进行训练,训练数据集中的数据是从基于深层数据包检测技术的识别中得到的样本,有明确的分类信息;训练结束后将若干个支持向量存入支持向量库,转至步骤3);学习模式、分类模式、积累模式,具体如下:21)积累模式:此模式同时进行基于支持向量机技术的识别与基于深层数据包检测技术的识别,将分别产生两个分类结果;22)分类模式:此模式将通过支持向量库对捕获流量进行识别;23)学习模式:此模式将通过样本数据进行支持向量机的学习,并将结果加入支持向量库中;在流量识别的过程中,只可能处于这三种模式的其中之一;在学习模式、分类模式、积累模式下,分别依据特定的规则做出决策,其规则具体为:31)当前处于积累模式:定义精确度为支持向量机判定正确次数与有效累积次数的比值,若深层数据包检测识别成功则记为一次有效累积次数;定义最大精确度为在当前对等网络流量特征库支持下的最大精确度;情况一:深层数据包检测识别成功,确定此样本流量为对等网络流量,将支持向量机分类结果与之相比较,判定为对等网络流量,并修正精确度;情况二:深层数据包检测识别失败,无法确定此样本流量是否为对等网络流量,若当前精确度≥可容纳的精确度,判定为对等网络流量;反之判定为非对等网络流量;当训练样本累积至一定规模时,改变当前模式为学习模式;经过不断地支持向量机训练过程后,随着时间的增加,精确度将不断递增并接近极大值,当判断其接近最大精确度时,改变当前模式为分类模式;32)当前处于分类模式:在理想状况下,这时的精确度将接近最大精确度,但是,当网络情况发生变化或对等网络特征库发生变化时,实际精确度将会下降或有提升空间,因而,在经过一段时间后,改变当前模式为积累模式;33)当前处于学习模式:支持向量机训练结束后,改变当前模式为积累模式。
地址 210003 江苏省南京市新模范马路66号