发明名称 一种基于序列比对的自适应应用层网络协议报文聚类方法
摘要 一种基于序列比对的自适应应用层网络协议报文聚类方法,首先对报文进行划分得到各个报分词文序列,然后根据偏移、宽度、语义、类型、数据内容计算各个报分词文序列中分词的相似度,并使用位置和距离对分析相似度进行修正,进而得到各个报文分析序列的相似度,最后计算多个聚类数量下的聚类有效性评价指标,将聚类有效性评价指标最大值对应的聚类作为聚类结果。本发明与现有技术相比,通过综合考察分词的多个属性来对报文分词的相似程度进行比对,改善了以往序列比对中元素的比较仅考虑数值的片面性,能够更加全面准确地判断网络报文中分词的相似性,从而提高整体分析的性能。
申请公布号 CN106021361A 申请公布日期 2016.10.12
申请号 CN201610305948.7 申请日期 2016.05.10
申请人 中国空间技术研究院 发明人 齐维孔;衣龙腾;李明;周钠;刘晓晖
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中国航天科技专利中心 11009 代理人 陈鹏
主权项 一种基于序列比对的自适应应用层网络协议报文聚类方法,其特征在于包括如下步骤:(1)获取需要进行报文聚类的报文,分别对各个报文进行划分得到分词,进而得到各个报文对应的报文分词序列;所述的分词为报文中的各个字段;(2)从步骤(1)得到的报分词文序列中任意选择两个,分别记为T<sub>m</sub>、F<sub>n</sub>,计算报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词关于偏移的相似度scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).o为<maths num="0001"><math><![CDATA[<mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>)</mo></mrow><mo>.</mo><mi>o</mi><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>o</mi><mo>&NotEqual;</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>o</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mi>a</mi><mi>d</mi><mi>d</mi><mi>w</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>o</mi><mo>=</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>o</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000986044200000011.GIF" wi="1526" he="142" /></maths>其中,<img file="FDA0000986044200000012.GIF" wi="1542" he="591" />T<sub>m</sub>[i].o=F<sub>n</sub>[j].o表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词均包括偏移,T<sub>m</sub>[i].o≠F<sub>n</sub>[j].o表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词不均包括偏移,i=1,2,3…m,j=1,2,3…n,m为报文分词序列T<sub>m</sub>中分词的个数,n为报文分词序列F<sub>n</sub>中分词的个数,T<sub>m</sub>.l为报文分词序列T<sub>m</sub>的长度,F<sub>n</sub>.l为报文分词序列F<sub>n</sub>的长度;所述的偏移为分词首位到当前报文分词序列头部的距离;(3)计算报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词关于宽度的相似度scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).w为<maths num="0002"><math><![CDATA[<mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow><mo>.</mo><mi>w</mi><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>.</mo><mi>w</mi><mo>&NotEqual;</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow><mo>.</mo><mi>w</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mi>a</mi><mi>d</mi><mi>d</mi><mi>w</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>.</mo><mi>w</mi><mo>=</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow><mo>.</mo><mi>w</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000986044200000013.GIF" wi="1574" he="143" /></maths>其中,T<sub>m</sub>[i].w=F<sub>n</sub>[j].w表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词宽度相同,T<sub>m</sub>[i].w≠F<sub>n</sub>[j].w表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词宽度不同;所述的宽度为分词的长度;(4)计算报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词关于语义的相似度scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).s为<maths num="0003"><math><![CDATA[<mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>)</mo></mrow><mo>.</mo><mi>s</mi><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>s</mi><mo>&NotEqual;</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>s</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mi>a</mi><mi>d</mi><mi>d</mi><mi>w</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>s</mi><mo>=</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>s</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000986044200000021.GIF" wi="1510" he="143" /></maths>其中,T<sub>m</sub>[i].s=F<sub>n</sub>[j].s表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词语义相同,T<sub>m</sub>[i].s≠F<sub>n</sub>[j].s表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词语义不同;所述的语义为分词的含义;(5)计算报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词关于类型的相似度scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).t为<maths num="0004"><math><![CDATA[<mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>)</mo></mrow><mo>.</mo><mi>t</mi><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>t</mi><mo>&NotEqual;</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>t</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mi>a</mi><mi>d</mi><mi>d</mi><mi>w</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>t</mi><mo>=</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>t</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000986044200000022.GIF" wi="1494" he="144" /></maths>所述的类型为分词类型,其中,分词类型包括文本、二进制,T<sub>m</sub>[i].t=F<sub>n</sub>[j].t表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词类型相同,T<sub>m</sub>[i].t≠F<sub>n</sub>[j].t表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词类型不同;(6)计算报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词关于数据内容的相似度scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).d为<maths num="0005"><math><![CDATA[<mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>)</mo></mrow><mo>.</mo><mi>d</mi><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>d</mi><mo>&NotEqual;</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>d</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mi>a</mi><mi>d</mi><mi>d</mi><mi>w</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></mtd><mtd><mrow><msub><mi>T</mi><mi>m</mi></msub><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo><mo>.</mo><mi>d</mi><mo>=</mo><msub><mi>F</mi><mi>n</mi></msub><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo><mo>.</mo><mi>d</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000986044200000023.GIF" wi="1533" he="143" /></maths>所述的数据内容为分词的取值;其中,T<sub>m</sub>[i].d=F<sub>n</sub>[j].d表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词数据内容相同,T<sub>m</sub>[i].d≠F<sub>n</sub>[j].d表示报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词数据内容不同;(7)计算得到报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词的相似度scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j])为scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j])=scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).o+scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).w+scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).s+scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).t+scoreP(T<sub>m</sub>[i],F<sub>n</sub>[j]).d;(8)分别计算报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词的相对位置dis(T<sub>m</sub>[i],F<sub>n</sub>[j])=|T<sub>m</sub>[i].o‑F<sub>n</sub>[j].o|,进而计算得到修正后的报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词的相似度scoreD(T<sub>m</sub>[i],F<sub>n</sub>[j])为<maths num="0006"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow><mo>=</mo></mrow></mtd></mtr><mtr><mtd><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow></mrow><mn>10</mn></mfrac></mrow><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mn>0</mn><mo>&le;</mo><mi>d</mi><mi>i</mi><mi>s</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow><mo>&le;</mo><mn>10</mn></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow><mo>&gt;</mo><mn>10</mn></mrow></mtd></mtr></mtable></mfenced></mtd></mtr></mtable><mo>;</mo></mrow>]]></math><img file="FDA0000986044200000031.GIF" wi="1734" he="287" /></maths>(9)将scoreD(T<sub>m</sub>[i],F<sub>n</sub>[j])作为最终的报文分词序列T<sub>m</sub>中第i个分词与报文分词序列F<sub>n</sub>中第j个分词的相似度score(T<sub>m</sub>[i],F<sub>n</sub>[j]),重复步骤(2)‑步骤(8)得到各个报文分词序列中各个分词的相似度;(10)计算报文分词序列T<sub>i</sub>与报文分词序列F<sub>j</sub>的相似度MS[i,j]为<maths num="0007"><math><![CDATA[<mrow><mi>M</mi><mi>S</mi><mrow><mo>&lsqb;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mo>&rsqb;</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>i</mi><mo>=</mo><mn>0</mn><mi>o</mi><mi>r</mi><mi> </mi><mi>j</mi><mo>=</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mi>max</mi><mfenced open = "{" close = "}"><mtable><mtr><mtd><mrow><mrow><mo>(</mo><mrow><mi>M</mi><mi>S</mi><mrow><mo>&lsqb;</mo><mrow><mi>i</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>j</mi><mo>-</mo><mn>1</mn></mrow><mo>&rsqb;</mo></mrow><mo>+</mo><mi>s</mi><mi>c</mi><mi>o</mi><mi>r</mi><mi>e</mi><mrow><mo>(</mo><mrow><msub><mi>T</mi><mi>m</mi></msub><mrow><mo>&lsqb;</mo><mi>i</mi><mo>&rsqb;</mo></mrow><mo>,</mo><msub><mi>F</mi><mi>n</mi></msub><mrow><mo>&lsqb;</mo><mi>j</mi><mo>&rsqb;</mo></mrow></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>,</mo></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>S</mi><mrow><mo>&lsqb;</mo><mrow><mi>i</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>j</mi></mrow><mo>&rsqb;</mo></mrow><mo>,</mo></mrow></mtd></mtr><mtr><mtd><mrow><mi>M</mi><mi>S</mi><mrow><mo>&lsqb;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>-</mo><mn>1</mn></mrow><mo>&rsqb;</mo></mrow></mrow></mtd></mtr></mtable></mfenced></mrow></mtd><mtd><mrow><mi>i</mi><mo>&NotEqual;</mo><mn>0</mn><mi>a</mi><mi>n</mi><mi>d</mi><mi> </mi><mi>j</mi><mo>&NotEqual;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000986044200000032.GIF" wi="1845" he="302" /></maths>其中,i的初值为1,j的初值为1,T<sub>i</sub>为包括报文分词序列T<sub>m</sub>中第e个分词的报文分词序列,e=1,2,3…i;(11)i=i+1,重复步骤(10),直至i=m;(12)j=j+1,重复步骤(10)‑步骤(11),直至j=n,得到报文分词序列T<sub>m</sub>与报文分词序列F<sub>n</sub>的相似度MS[m,n],从而得到各个报文分词序列间的相似度;(13)根据步骤(12)得到的各个报文分词序列间的相似度,对各个报文分词序列进行聚类,得到不同的报文序列聚类,并记为C<sub>1</sub>,C<sub>2</sub>,…,C<sub>k</sub>,其中,k为聚类个数,k=1,2,3…g,g为报分词文序列个数;(14)计算聚类有效性评价指标Dunn(k)为<maths num="0008"><math><![CDATA[<mrow><mi>D</mi><mi>u</mi><mi>n</mi><mi>n</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&lt;</mo><mi>k</mi></mrow></munder><mo>{</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>i</mi><mo>&lt;</mo><mi>j</mi><mo>&le;</mo><mi>k</mi></mrow></munder><mo>{</mo><mi>&delta;</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>}</mo><mo>}</mo></mrow><mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mi>k</mi></mrow></munder><mo>{</mo><mi>&Delta;</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>}</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000986044200000041.GIF" wi="810" he="207" /></maths>其中,<img file="FDA0000986044200000042.GIF" wi="1782" he="91" />d(T<sub>m</sub>,F<sub>n</sub>)=min{dis(T<sub>m</sub>[i],F<sub>n</sub>[j])};(15)选取聚类有效性评价指标Dunn(k)最大的报文序列聚类C<sub>1</sub>,C<sub>2</sub>,…,C<sub>k</sub>作为聚类结果。
地址 100194 北京市海淀区友谊路104号