发明名称 基于家族样本的病毒特征自动提取方法及系统
摘要 本发明提供一种基于家族样本的病毒特征自动提取方法及系统,本发明对最长公共子序列算法进行改进,利用家族样本集中的样本,建立数列A、B,通过预设特征码长度,分别计算数列A、B中长度为预设值的子序列的哈希值,并通过红黑树方式对A、B数列中的子序列的哈希值匹配,若哈希值相同,则该哈希值所对应的子序列为数列A及数列B的公共子序列,则该公共子序列为家族样本特征码,当剩余样本分别作为数列B并在红黑树中查找后,得到的所有家族样本特征码组成家族样本特征集,根据建立的特征码质量评价加权模型,判断特征码质量,确定家族样本特征码。通过本发明的方法,简化了算法的时间复杂度,提高了特征码提取效率及准确度。
申请公布号 CN103324888A 申请公布日期 2013.09.25
申请号 CN201210072372.6 申请日期 2012.03.19
申请人 哈尔滨安天科技股份有限公司 发明人 童志明;董雷;田彻;张栗伟
分类号 G06F21/56(2013.01)I 主分类号 G06F21/56(2013.01)I
代理机构 代理人
主权项 一种基于家族样本的病毒特征自动提取方法,其特征在于,包括:利用家族样本集中的样本,建立数列:选取家族样本集中的任一样本作为数列A,样本长度即为数列A长度;选取家族样本集中的剩余样本,分别作为数列B,样本长度即为数列B长度;设定特征码长度,根据预设的特征码长度k,计算数列A中所有长度为k的子序列的哈希值,并用得到的哈希值构建红黑树;根据预设的特征码长度k,计算数列B中所有长度为k的子序列的哈希值;特征码提取,将数列B得到的哈希值分别在红黑树中查找,如果查找到相同的哈希值,则将所述相同哈希值所对应的数列A及数列B的公共子序列作为所述家族样本特征码,将所述剩余样本分别作为数列B并在红黑树中查找后,得到的所有家族样本特征码组成家族样本特征集;建立特征码质量评价加权模型,计算各家族样本特征码实际权值,保留大于或等于预设权值的家族样本特征码。
地址 150090 黑龙江省哈尔滨市开发区南岗集中区红旗大街162号506室