一种针对特定网站类别的网页指纹识别方法,申请号CN201510481183.8-传众专利搜索

发明名称	一种针对特定网站类别的网页指纹识别方法
摘要	本发明公开了一种针对特定网站类别的网页指纹识别方法，该方法为基于分类效果的特征选择方法以及基于训练集划分和结果集成相结合的分类方法，解决了特定网站类别网页指纹识别时出现的不平衡分类问题，并且改进了网页指纹收集方法，使其能够应对缓存机制下的网页指纹识别，该方法简单易行，在数据收集时充分考虑了不同的浏览器操作所生成的不同指纹数据，大大增强了指纹识别系统应对实际应用环境的能力，对网络行为监控有着很重要作用。
申请公布号	CN105281973A	申请公布日期	2016.01.27
申请号	CN201510481183.8	申请日期	2015.08.07
申请人	南京邮电大学	发明人	陈伟;李晨阳;沈婧;张伟;杨庚
分类号	H04L12/26(2006.01)I;H04L12/24(2006.01)I	主分类号	H04L12/26(2006.01)I
代理机构	南京知识律师事务所 32207	代理人	汪旭东
主权项	一种针对特定网站的网页指纹识别方法，其特征在于，所述方法包括如下步骤：步骤1：训练数据收集；在通信链路上对目标可能访问的所有网站的不同浏览器操作方式下的网页指纹数据进行采集；步骤2：数据预处理；消除噪音数据与冗余数据，包括：重传数据包、坏数据包，冗余数据包括协议控制数据；步骤3：构造训练集；首先进行特征提取操作，根据指纹特征从预处理后的网页加载数据流中提取出相应的特征值，然后将各特征或特征值组合成特征值向量，并将该网页加载实例所属的网站类别作为该特征值向量的分类类别添加在特征向量末尾构成训练实例，最终所有的训练实例构成了指纹原始训练集；步骤4：特征选择；将指纹数据集分为正类和负类，其中需要识别的网站类别为正类，其它网站类别为负类；步骤5：训练集划分；首先将整个训练集按正类和负类划分为正类训练集和负类训练集，用C和<img file="FDA0000776716740000011.GIF" wi="51" he="61" />分别表示正类训练集和负类训练集：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>C</mi><mo>=</mo><msubsup><mrow><mo>{</mo><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mo>+</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>,</mo><mover><mi>C</mi><mo>&OverBar;</mo></mover><mo>=</mo><msubsup><mrow><mo>{</mo><mrow><mo>(</mo><msub><mover><mi>c</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>,</mo><mo>-</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup></mrow>]]></math><img file="FDA0000776716740000017.GIF" wi="614" he="77" /></maths>其中，c<sub>i</sub>表示第i个正类样本，n表示正类样本数；<img file="FDA0000776716740000018.GIF" wi="49" he="61" />表示第i个负类样本，m表示负类样本数；之后，对负类训练集使用随机划分法进行划分：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mover><mi>C</mi><mo>&OverBar;</mo></mover><mi>i</mi><mo>=</mo><msubsup><mrow><mo>{</mo><mrow><mo>(</mo><msubsup><mover><mi>c</mi><mo>&OverBar;</mo></mover><mi>k</mi><mi>i</mi></msubsup><mo>,</mo><mo>-</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>l</mi><mi>i</mi></msub></msubsup><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>N</mi></mrow>]]></math><img file="FDA0000776716740000013.GIF" wi="581" he="79" /></maths>其中，<img file="FDA0000776716740000014.GIF" wi="63" he="62" />代表划分后的第i块负类子训练集，l<sub>i</sub>表示第i块负类子训练集的样本数目，其中划分的块数N由以下公式决定：<img file="FDA0000776716740000015.GIF" wi="173" he="109" />m是负类训练集样本数，n是正类训练集样本数，最后，将正类训练集和各个负类子训练集合并，得到N个子训练集：<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msup><mi>T</mi><mi>i</mi></msup><mo>=</mo><mi>C</mi><mo>∪</mo><msub><mover><mi>C</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>N</mi></mrow>]]></math><img file="FDA0000776716740000016.GIF" wi="491" he="85" /></maths>其中，T<sub>i</sub>是最终划分完成后的子训练集，在子训练集中，正类样本数目等于负类样本数目，在这些训练集上使用传统分类器进行分类；步骤6：分类；训练集划分完毕后，使用传统分类器在各个训练子集上对目标产生的待分类指纹数据进行分类；步骤7：结果集成；经过训练集划分并用分类器对每个子训练集进行分类后，产生N个分类结果，该分类结果数与训练集划分块数相同，最后基于最大化的思想对这些分类结果进行整合，得到最终的分类结果，该步骤如下：W<sup>i</sup>＝F(T<sup>i</sup>)，i＝1,2,...,NW＝MAX(W<sup>1</sup>,W<sup>2</sup>,...,W<sup>N</sup>)经过对各个划分后的训练子集进行分类得到各子集分类结果为W<sup>i</sup>,该结果由两部分组成：待分类指纹所属网站类别c和待分类指纹属于该类别的类别权值p，选取所有分类结果中p值最大的W<sup>k</sup>作为最终分类结果。
地址	210023 江苏省南京市栖霞区文苑路9号