发明名称 基于文件字符串聚类的划分同源家族和变种的方法及系统
摘要 本发明提出了一种基于文件字符串聚类的划分同源家族和变种的方法及系统,本发明通过获取目标文件的dump文件及API调用记录文件,并提取其字符串和API及参数信息,形成向量文件,计算器simhash值,与家族特征向量库中的已知家族及家族变种的中心距离相比较,如果小于预设值,则所述目标文件属于对应家族或家族变种,否则为新增的家族或家族变种。通过本发明,能够对大批量的未知目标文件进行家族归类,并能进一步对其变种进行划分,同时其形成的家族向量特征库可以用来对样本的家族及其变种进行判别。
申请公布号 CN105512555A 申请公布日期 2016.04.20
申请号 CN201410762181.1 申请日期 2014.12.12
申请人 哈尔滨安天科技股份有限公司 发明人 董建武;康学斌;肖新光
分类号 G06F21/56(2013.01)I;G06F17/30(2006.01)I 主分类号 G06F21/56(2013.01)I
代理机构 代理人
主权项 一种基于文件字符串聚类的划分同源家族和变种的方法,其特征在于,包括:对目标文件进行动态分析及静态分析,获取目标文件中的dump文件及API调用记录文件;提取所述dump文件中的指定字符串,形成字符串向量文件;计算所述字符串向量文件中向量的simhash值,并比较所述simhash值与家族特征向量库中各已知恶意代码家族中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应恶意代码家族,并进行下一步;否则所述目标文件为新的恶意代码家族,并将所述目标文件及其向量信息作为新的恶意代码家族添加到家族特征向量库中;提取所述目标文件的API调用记录文件中的API及其参数信息,形成API向量文件;计算所述API向量文件中API向量的simhash值,并比较所述simhash值与目标文件所属对应恶意代码家族中各已知家族变种中心值的距离,若距离小于预设值,则所述目标文件属于距离小于预设值的对应家族变种;否则所述目标文件为当前恶意代码家族的新家族变种,并将所述目标文件及其向量信息作为新家族变种,添加到家族特征向量库中。
地址 150090 黑龙江省哈尔滨市开发区南岗集中区红旗大街162号506室