发明名称 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
摘要 利用改进的高斯混合模型分类器检测垃圾邮件的方法,利用健壮特征的加速提取算法来提取图片中垃圾信息的不变区域特征,对不变区域特征进行高斯混合模型拟合,使用期望最大化方法来进行权重、均值以及协方差矩阵的评估,具体为:对待检测数据集的图片进行标签,分为垃圾图片与正常图片;采用健壮特征的加速提取算法提取所有数据集的局部不变特征的向量;采用高斯混合模型对局部不变特征进行密度函数拟合,得到所有图片的均值与协方差矩阵;改进均值聚类算法,使其适用于对上一步骤中得出的特殊特征向量进行聚类,使用交叉熵作为分布之间相似度的衡量指标,实现基于高斯混合模型的均值聚类算法;利用基于高斯混合模型的均值聚类算法来构建分类器。
申请公布号 CN102129568A 申请公布日期 2011.07.20
申请号 CN201110112414.X 申请日期 2011.04.29
申请人 南京邮电大学 发明人 张卫丰;王慕妮;张迎周;周国强;许碧欢;陆柳敏
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种利用改进的高斯混合模型分类器检测图像垃圾邮件的方法,其特征在于该方法主要分为以下步骤:一、根据样本集进行训练步骤1)对待训练的图片数据集进行标签,分为垃圾图片和正常图片;步骤2)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局部不变特征描述符;步骤3)对每张图片的局部不变特征描述符进行高斯混合模型拟合,采用期望最大化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤4)对均值聚类算法进行改进,使其对这种特殊的高斯混合特征向量进行聚类,涉及到距离计算方法以及标准测度函数的确定;步骤5)使用交叉熵作为高斯混合分布之间的距离计算方法;步骤6)根据交叉熵计算公式,需要两个分布之间的样本是相同的,因此编写根据均值与协方差矩阵来获取样本的函数方法;步骤7)以图片所属的聚类中心的索引值向量作为标准测度函数;步骤8)在步骤4)~步骤7)确定了距离计算方法以及标准测度函数的基础上,再运用均值聚类算法构成基于高斯混合分布的均值聚类算法;步骤9)根据步骤8)形成的聚类算法分别对垃圾图片与正常图片进行聚类;步骤10)在基于高斯混合分布的均值聚类算法基础上再结合交叉熵的距离计算方法构建高斯混合模型的分类器;二、使用训练好的高斯混合模型分类器对待检测图片进行分类阶段:步骤21)采用“健壮特征的加速提取算法”提取待检测图片的局部不变特征描述符;步骤22)对每张图片的局部不变特征描述符进行高斯混合分布的拟合,采用期望最大化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤23)使用由均值以及协方差矩阵确定的样本获取函数,获取待检测图片的样本值;步骤24)计算每张待检测图片的高斯混合分布与垃圾图片以及正常图片的聚类中心的交叉熵值,选取两类的最小交叉熵值,作为待检测图片与两大类图片的相似程度;步骤25)比较两个最小熵值的大小,由此对待检测图片进行垃圾图片与正常图片的归类。
地址 210003 江苏省南京市新模范马路66号