发明名称 一种基于数据挖掘的敏感数据动态识别方法
摘要 一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时,需要判断当前待传输或处理的业务数据是否敏感,根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理,得到该敏感数据文档的特征词-文档矩阵,利用主成分分析法对特征词-文档矩阵进行降维,得到降维后的特征词-文档矩阵,再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模,得到敏感数据识别模型,对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算,判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。
申请公布号 CN102012985B 申请公布日期 2013.12.25
申请号 CN201010552652.8 申请日期 2010.11.19
申请人 国网电力科学研究院 发明人 林为民;张涛;邓松;费稼轩;秦超;邵志鹏;楚杰;陈亚东
分类号 G06F21/60(2013.01)I;G06F17/27(2006.01)I 主分类号 G06F21/60(2013.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种基于数据挖掘的敏感数据动态识别方法,其特征就在于,包括以下步骤为:步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文档;步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词‑文档矩阵,记录分词后的特征词在文档中出现的频率;步骤4:采用向量空间模型对特征词‑文档矩阵进行向量化处理,构造出文本特征向量;步骤 5:计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量;步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据累积贡献率选择对应的特征值计算出主成分,同时计算出文本特征向量空间的主成分后,确定文本特征向量的各个特征分量在各个主成分向量上的载荷,最后得到降维后的主成分分量来代替原来特征向量空间;步骤 7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果是则转到步骤8,否则转到步骤13;步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;步骤9:由BP神经网络来对训练数据集进行运算;步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如果误差超过阈值,则转到步骤11,否则转到步骤12;步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9;步骤12:输出一个敏感数据识别模型;步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并输出动态识别结果;步骤14:敏感数据识别结束。
地址 210003 江苏省南京市鼓楼区南瑞路8号