发明名称 一种工业用交换机用户异常行为检测方法
摘要 本发明公开了一种工业用交换机用户异常行为检测方法,基于多数类分布的处理算法,随机从中选特征指标,重复N次,构造N个指标子集,训练样本进行投影,得对应的样本,对所有对应元素进行投票,构成少数类样本集合,根据每个对少数类样本集合进行投影,得对应特征指标子空间上的少数类样本和多数类样本,设共有多个类别,对应的参照点集合为,对其余子空间的分类结果进行集成:在每个子空间的分类结果中查看不属于T的所有数据,若其与参照点同属一类,则将标记,设多数类分布的分析结果,每个类别包含数据数量,返回训练样本子集和特征指标子集合,最后,通过特征指标子集合,分析出工业用交换机用户的异常行为,时间需求减少,同时在准确性评价指标上表现更好。
申请公布号 CN106485188A 申请公布日期 2017.03.08
申请号 CN201510534318.2 申请日期 2015.08.27
申请人 桂林信通科技有限公司 发明人 陈奕钊;范浩;程大鹏;彭何义
分类号 G06K9/00(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 桂林市华杰专利商标事务所有限责任公司 45112 代理人 唐修豪
主权项 一种工业用交换机用户异常行为检测方法,其特征在于,包括如下步骤:1)基于多数类分布的改进EasyEnssemble样本处理算法。输入:训练样本<img file="FDA0000790755230000011.GIF" wi="1364" he="249" />检测特征指标集F<sub>object</sub>={C<sub>1</sub>,C<sub>2</sub>,…,C<sub>n</sub>},检测特征指标子空间的特征数量s,特征指标子空间数量N,其中s<n,N为奇数输出:训练样本子集{X<sub>1</sub>,X<sub>2</sub>,…,X<sub>M</sub>},检测特征指标子集{F<sub>1</sub>,F<sub>2</sub>,…,F<sub>N</sub>}2)随机从F<sub>object</sub>中选取s项特征指标,重复N次,构造N个特征指标子集{F<sub>1</sub>,F<sub>2</sub>,…,F<sub>N</sub>},对每一个F<sub>i</sub>(i∈[1,N]),有F<sub>i</sub>={C<sub>1</sub>,C<sub>2</sub>,…,C<sub>s</sub>},其中C<sub>1</sub>,C<sub>2</sub>,…,C<sub>s</sub>∈F<sub>object</sub>且各特征指标子集互不相同。3)根据每个F<sub>i</sub>(i∈[1,N])对训练样本X进行投影,得对应特征指标子空间上的样本<img file="FDA0000790755230000012.GIF" wi="1318" he="245" />使用CUR方法对{a′<sub>1</sub>,a'<sub>2</sub>,…,a'<sub>m</sub>}进行二分类聚类(取聚类数目K=2,收缩因子a=0。3,从两种已标记数据中抽取约10%作为代表点),计算结果两个类别中对应t=1的元素数量,令数量多者为少数类结果Minor(F<sub>i</sub>)。4)对所有Minor(F<sub>i</sub>)(i∈[1,N])中对应t=0元素进行投票,按简单多数确定其是否为少数类元素,投票结果与训练样本X中t=1元素合并,构成少数类样本集合<img file="FDA0000790755230000015.GIF" wi="436" he="66" />设其s<sub>1</sub>项数据,则<img file="FDA0000790755230000013.GIF" wi="492" he="80" />其中<img file="FDA0000790755230000014.GIF" wi="310" he="78" />或a<sub>j</sub>对应的t=1,或者t=0但其出现在过半数的Minor(F<sub>i</sub>)中,其余元素构成多数类样本集合<img file="FDA0000790755230000016.GIF" wi="452" he="66" />设其有s<sub>2</sub>项数据,则有s<sub>1</sub>+s<sub>2</sub>=m。5)根据每个F<sub>i</sub>对少数类样本集合Mayor进行投影,得对应特征指标子空间上的少数类样本<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>Minor</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><msub><mi>F</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = '[' close = ']'><mtable><mtr><mtd><msubsup><mi>a</mi><mn>1</mn><mo>&prime;</mo></msubsup></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msubsup><mi>a</mi><mrow><mi>s</mi><mn>1</mn></mrow><mo>&prime;</mo></msubsup></mtd></mtr></mtable></mfenced><mo>=</mo><msub><mfenced open = '[' close = ']'><mtable><mtr><mtd><msub><mi>x</mi><mrow><mn>1</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>1</mn><mo>,</mo><mi>s</mi></mrow></msub></mtd><mtd><msub><mi>t</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>x</mi><mrow><mn>2</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>2</mn><mo>,</mo><mi>s</mi></mrow></msub></mtd><mtd><msub><mi>t</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msub><mi>x</mi><mrow><mi>s</mi><mn>1</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mi>s</mi><mn>1</mn><mo>,</mo><mi>s</mi></mrow></msub></mtd><mtd><mrow><mi>t</mi><mi>m</mi></mrow></mtd></mtr></mtable></mfenced><mrow><mi>m</mi><mo>&times;</mo><mrow><mo>(</mo><mi>s</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000790755230000021.GIF" wi="1504" he="320" /></maths>计算其中心位置,公式为<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mover><mrow><msup><mi>Minor</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><msub><mi>F</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mo>&OverBar;</mo></mover><mo>=</mo><mrow><mo>(</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>,</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>,</mo><mo>...</mo><mo>,</mo><mover><msub><mi>x</mi><mi>s</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000790755230000022.GIF" wi="572" he="93" /></maths>其中<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mover><msub><mi>x</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>s</mi><mn>1</mn></msub></munderover><msub><mi>x</mi><mrow><mi>j</mi><mo>,</mo><mi>x</mi></mrow></msub></mrow><msub><mi>s</mi><mn>1</mn></msub></mfrac><mo>.</mo></mrow>]]></math><img file="FDA0000790755230000023.GIF" wi="274" he="222" /></maths>6)根据每个F<sub>i</sub>对多数类样本集合Mayor进行投影,得对应特征指标子空间上的多数类样本<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msup><mi>Mayor</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><msub><mi>F</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = '[' close = ']'><mtable><mtr><mtd><msubsup><mi>a</mi><mn>1</mn><mo>&prime;</mo></msubsup></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msubsup><mi>a</mi><mrow><mi>s</mi><mn>1</mn></mrow><mo>&prime;</mo></msubsup></mtd></mtr></mtable></mfenced><mo>=</mo><msub><mfenced open = '[' close = ']'><mtable><mtr><mtd><msub><mi>x</mi><mrow><mn>1</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>1</mn><mo>,</mo><mi>s</mi></mrow></msub></mtd><mtd><msub><mi>t</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>x</mi><mrow><mn>2</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>2</mn><mo>,</mo><mi>s</mi></mrow></msub></mtd><mtd><msub><mi>t</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msub><mi>x</mi><mrow><mi>s</mi><mn>1</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mi>s</mi><mn>1</mn><mo>,</mo><mi>s</mi></mrow></msub></mtd><mtd><mrow><mi>t</mi><mi>m</mi></mrow></mtd></mtr></mtable></mfenced><mrow><mi>m</mi><mo>&times;</mo><mrow><mo>(</mo><mi>s</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000790755230000024.GIF" wi="1484" he="324" /></maths>对其使用CLIQUE方法进行多类别聚类,设结果中类别数量最多的子空间为Mayor'(F<sub>max</sub>),计算其中每一类别的中心位置,公式为<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mover><mrow><msup><mi>Mayor</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><msub><mi>F</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><mo>)</mo></mrow></mrow><mo>&OverBar;</mo></mover><mo>=</mo><mrow><mo>(</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>,</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>,</mo><mo>...</mo><mo>,</mo><mover><msub><mi>x</mi><mi>s</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000790755230000025.GIF" wi="619" he="97" /></maths>其中<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mover><msub><mi>x</mi><mi>i</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>s</mi><mn>1</mn></msub></munderover><msub><mi>x</mi><mrow><mi>j</mi><mo>,</mo><mi>i</mi></mrow></msub></mrow><msub><mi>s</mi><mn>1</mn></msub></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000790755230000026.GIF" wi="257" he="215" /></maths>搜索距中心距离最近的数据为投票参照点,距离公式为<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>d</mi><msubsup><mi>a</mi><mi>j</mi><mo>&prime;</mo></msubsup></msub><mo>=</mo><mi>D</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><mover><mrow><msup><mi>Minor</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><msub><mi>F</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mo>&OverBar;</mo></mover><mo>,</mo><msubsup><mi>a</mi><mi>i</mi><mo>&prime;</mo></msubsup><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mn>2</mn></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><mo>...</mo><mo>+</mo><msup><mrow><mo>(</mo><mover><msub><mi>x</mi><msup><mi>n</mi><mo>&prime;</mo></msup></msub><mo>&OverBar;</mo></mover><mo>-</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>s</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000790755230000027.GIF" wi="1692" he="117" /></maths>7)设共有t'个类别,对应的参照点集合为T={a<sub>1</sub>,a<sub>2</sub>,…,a<sub>t'</sub>}8)对其余子空间的分类结果进行集成:在每个子空间的分类结果中查看不属于T的所有数据,若其与参照点x<sub>t</sub>,(x<sub>t</sub>∈T)同属一类,则将x<sub>t</sub>标记加入该数据(若与多个x<sub>t</sub>同属一类则加入多个标记)。完毕后对多数类Mayor所有数据的标记投票,选择支持数最多(若相同则选择T中排列靠前的类别)的标记作为该数据类别,检查结果并去除仅含少数点的类别。9)设多数类分布的分析结果为D<sub>1</sub>,D<sub>2</sub>,…,D<sub>t</sub>,每个类别包含数据数量为Count(D<sub>1</sub>),Count(D<sub>2</sub>),…,Count(D<sub>t</sub>),确定D<sub>1</sub>,D<sub>2</sub>,…,D<sub>t</sub>的抽样权重<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><mi>R</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>C</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>D</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><mi>R</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>D</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000790755230000028.GIF" wi="1340" he="209" /></maths>于是类别Di的抽样数量为<img file="FDA0000790755230000031.GIF" wi="1288" he="208" />10)计算子样本空间数量<img file="FDA0000790755230000032.GIF" wi="191" he="137" />构造M个多数类样本子集{X′<sub>1</sub>,X'<sub>2</sub>,…,X'<sub>M</sub>},每个子集初值为空,依次对多数类元素每个类别D<sub>i</sub>进行无放回抽样,取样数量计算为Size(D<sub>i</sub>),若取样过程D<sub>i</sub>中数据已被取完,则将该类数据重置为初始状态再继续抽取,共取M次,分别加入每个X'<sub>j</sub>(j∈[1,M])中。11)构造M个训练样本子集{X<sub>1</sub>,X<sub>2</sub>,…,X<sub>M</sub>},其中X<sub>i</sub>=X′<sub>i</sub>∪Minor(i∈[1,M])。12)返回训练样本子集{X<sub>1</sub>,X<sub>2</sub>,…,X<sub>M</sub>}和特征指标子集合{F<sub>1</sub>,F<sub>2</sub>,…,F<sub>N</sub>},最后,通过特征指标子集合,分析出工业用交换机用户的异常行为。
地址 541004 广西壮族自治区桂林市七星区六合路98号