发明名称 基于集成分类的病毒检测方法
摘要 本发明公开了一种基于集成分类的病毒检测方法,属于网络安全技术领域。该病毒检测方法由特征提取和集成分类两大模块,其中特征提取采用静态特征提取方法提取病毒的指令序列特征,构成特征集,并选择该特征集中信息增益最大的n个指令序列特征作为优化特征集。集成分类将人工神经网络引入到集成分类算法的构建中,结合AdaBoost算法提出一种新的模式分类器(GRAB)实现对病毒的检测,以达到有效地提高检测准确率,尤其是精确检测未知病毒的目的。通过本发明,可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒。
申请公布号 CN102346829A 申请公布日期 2012.02.08
申请号 CN201110283055.4 申请日期 2011.09.22
申请人 重庆大学 发明人 唐朝伟;张雪臻;杨磊;严鸣;时豪;李超群
分类号 G06F21/00(2006.01)I 主分类号 G06F21/00(2006.01)I
代理机构 重庆市前沿专利事务所 50211 代理人 郭云
主权项 1.一种基于集成分类的病毒检测方法,其特征在于:由以下步骤组成:S1、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集,按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序,选择所述特征集中信息增益最大的n个指令序列特征作为优化特征集;S2、以所述优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列<img file="2011102830554100001DEST_PATH_IMAGE002.GIF" wi="16" he="18" />,其中各训练数据的期望分类结果表示为<img file="2011102830554100001DEST_PATH_IMAGE004.GIF" wi="18" he="25" />,下标i表示训练数据在所述训练数据序列中的位置,将所述训练数据序列<img file="675305DEST_PATH_IMAGE002.GIF" wi="16" he="18" />中各组训练数据的权重均初始化为<img file="2011102830554100001DEST_PATH_IMAGE006.GIF" wi="69" he="42" />,其中<img file="2011102830554100001DEST_PATH_IMAGE008.GIF" wi="38" he="24" />表示第1轮训练后第i组训练数据的权重,i=1,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定;S3、弱分类器预测获得预测序列:采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出,获得预测序列<img file="2011102830554100001DEST_PATH_IMAGE010.GIF" wi="20" he="25" />,设定所述预测序列的表示函数为<img file="2011102830554100001DEST_PATH_IMAGE012.GIF" wi="37" he="25" />,其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,<img file="426002DEST_PATH_IMAGE012.GIF" wi="37" he="25" />表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果;求取预测误差和<img file="DEST_PATH_IMAGE014.GIF" wi="16" he="25" />:如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果<img file="205739DEST_PATH_IMAGE012.GIF" wi="37" he="25" />与期望分类结果<img file="538632DEST_PATH_IMAGE004.GIF" wi="18" he="25" />不相等,即如果<img file="DEST_PATH_IMAGE016.GIF" wi="65" he="25" />则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得所述预测序列<img file="290687DEST_PATH_IMAGE010.GIF" wi="20" he="25" />的预测误差和<img file="113150DEST_PATH_IMAGE014.GIF" wi="16" he="25" />,即<img file="DEST_PATH_IMAGE018.GIF" wi="86" he="37" />,其中<img file="DEST_PATH_IMAGE020.GIF" wi="38" he="25" />表示所述训练数据序列经第t轮训练后第i组训练数据的权重,且1≤t≤T,T为大于1的整数;S4、计算预测序列的权重<img file="DEST_PATH_IMAGE022.GIF" wi="17" he="25" />:根据所述预测序列<img file="255549DEST_PATH_IMAGE010.GIF" wi="20" he="25" />的预测误差和<img file="454449DEST_PATH_IMAGE014.GIF" wi="16" he="25" />计算所述预测序列<img file="123328DEST_PATH_IMAGE010.GIF" wi="20" he="25" />的权重<img file="54375DEST_PATH_IMAGE022.GIF" wi="17" he="25" />:<img file="DEST_PATH_IMAGE024.GIF" wi="102" he="46" />,其中1≤t≤T,T为大于1的整数;S5、获得第t轮训练后第t组弱分类器函数<img file="DEST_PATH_IMAGE026.GIF" wi="61" he="25" />;S6、判断t≥T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7;S7、根据所述预测序列<img file="746387DEST_PATH_IMAGE010.GIF" wi="20" he="25" />的权重<img file="483399DEST_PATH_IMAGE022.GIF" wi="17" he="25" />调整第t+1轮训练数据序列中各组训练数据的权重<img file="DEST_PATH_IMAGE028.GIF" wi="48" he="25" />,调整公式为:<img file="DEST_PATH_IMAGE030.GIF" wi="206" he="46" />,其中<img file="879221DEST_PATH_IMAGE028.GIF" wi="48" he="25" />表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且<img file="DEST_PATH_IMAGE032.GIF" wi="18" he="25" />是归一化因子,为常数;其后重复执行所述步骤S3~S6;S8、根据各轮训练获得的T组弱分类器函数,由所述T组弱分类器组合获得强分类器F:<img file="DEST_PATH_IMAGE034.GIF" wi="169" he="46" />;S9、对待检样本按照步骤S1进行特征提取,根据强分类器F对所述待检样本进行识别,输出检测结果。
地址 400045 重庆市沙坪坝区沙正街174号