发明名称 P2P网络流量检测方法
摘要 本发明涉及一种P2P网络流量检测方法,用于解决现有的网络流量检测方法检测精度差的技术问题。技术方案是采用两个阶段来训练分类器,首先使用半监督聚类来近似估计测试样本中的正例样本数N的值,然后根据N的值来进一步训练TSVM模型。与背景技术相比,N的值更加接近真实值,使得训练出的TSVM分类模型具有很好的稳定性和鲁棒性,提高了网络流量检测精度。本发明由于使用大量未标注数据参与训练分类模型,充分利用了半监督学的优势,与传统的只使用标注数据训练模型的监督学算法相比,准确性和稳定性更好。
申请公布号 CN102291279B 申请公布日期 2013.11.27
申请号 CN201110237498.X 申请日期 2011.08.18
申请人 西北工业大学 发明人 丁要军;蔡皖东
分类号 H04L12/26(2006.01)I;H04L29/08(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 代理人
主权项 1.一种P2P网络流量检测方法,其特征在于包括下述步骤: (a)使用流量采集卡在网关出口捕获网络流量,对捕获的网络流量进行数据包解析,并计算相应的流统计特征; (b)根据网络数据包的源IP地址、源端口、传输协议、目的端口、目的IP地址信息进行网络流重组,信息相同的数据包组成一个数据流;使用l7-filter对重组后的网络流进行标注,标注数据分为P2P协议和非P2P协议两类; (c)以数据流为单位提取统计特征,包括包大小、包到达时间间隔、流大小、流持续时间;协议已知的数据流加上协议类别标签,P2P协议数据流的标签为“1”,非P2P协议数据流的标签为“-1”,协议未知的数据流标签为“0”,每条数据流对应一个样本,用一个特征向量表示;将标注协议数据与未标注协议数据混合,使用K-Means聚类算法对混合数据聚类,生成两个聚类簇; (d)将步骤(c)得到的标注协议数据流样本和未标注协议数据流样本混合到一起构成训练集,标注协议数据流样本集用train_set表示,未标注协议数据流样本集用test_set表示; (e)使用K-Means聚类算法对步骤(d)中的train_set和test_set组成的混合训练集进行半监督聚类,生成两个聚类簇;分别计算两个簇中的包含的标注数据中P2P协议数据的比例,确定两个簇所属的类别;根据P2P协议簇中包含的样本个数来近似确定测试样本中的正例样本数N的值; (f)根据步骤(e)确定的测试样本中的正例样本数N的值,使用标注协议数据和未标注协议数据共同训练TSVM分类模型; TSVM的训练过程描述如下: Minimize over<img file="FSB0000114638390000011.GIF" wi="712" he="71" /><img file="FSB0000114638390000012.GIF" wi="1620" he="169" />Subject to: <img file="FSB0000114638390000013.GIF" wi="505" he="80" /><img file="FSB0000114638390000014.GIF" wi="535" he="81" /><img file="FSB0000114638390000015.GIF" wi="276" he="66" /><img file="FSB0000114638390000021.GIF" wi="279" he="80" />式中,ξ<sub>i</sub>和<img file="FSB0000114638390000022.GIF" wi="44" he="68" />是松弛变量,C是标注协议样本的影响因子,C<sup>*</sup>是未标注协议样本的影响因子;y<sub>i</sub>是指样本所属的协议类别;<img file="FSB0000114638390000023.GIF" wi="44" he="63" />是未标注样本<img file="FSB0000114638390000024.GIF" wi="42" he="63" />对应的协议类别;<img file="FSB0000114638390000025.GIF" wi="47" he="62" />是未标注样本<img file="FSB0000114638390000026.GIF" wi="43" he="61" />对应的协议类别;w是支持向量机理论中的线性函数的系数向量;b是支持向量机理论中的线性函数的系数常量;n是train_set中的样本个数;k是test_set中的样本个数;x<sub>i</sub>是标注样本向量;<img file="FSB0000114638390000027.GIF" wi="43" he="68" />是指未标注样本向量;(g)使用步骤(f)中训练的TSVM分类模型对网络数据流进行识别,判定是否为P2P网络流量。 
地址 710072 陕西省西安市友谊西路127号