发明名称 基于特征值比对的内容分析方法
摘要 本发明公开了一种基于特征值比对的内容分析方法,先在欲防护的机密文件进行特征值的计算,并建构出相应的数据特征档案,之后在机密防护作业的内容分析阶段,利用此文件特征数据向可疑文件进行固定长度的数据内容比对;若有符合特征比对的数据则为包含机密的档案,可以让防护系统进行政策所指定的相关防护动作,否则即可判定为不含机密的文件;本发明是基于机密防护领域的部份文件比对技术加以改良,利用切割数据空间的方法提升大型档案的比对效能与精确度,并依据目标文件的长度进行数据比对时相关参数的调整,从而达成机密辨识率与系统效能的两难需求。
申请公布号 CN101699428B 申请公布日期 2011.09.14
申请号 CN200910209248.8 申请日期 2009.10.27
申请人 中华电信股份有限公司 发明人 张明哲;徐克华;张保忠;刘灿雄
分类号 G06F17/27(2006.01)I;G06F17/22(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 万志香;曾旻辉
主权项 一种基于特征值比对的内容分析方法,其特征在于:至少包括:文件特征建构流程,将欲防护的机密文件利用文件特征建构功能,进行特征值的分区计算,并建构出相应的文件特征档案;特征值加载流程,将各区特征值加载至所属的数据结构中;文件特征比对流程,利用文件特征比对功能将加载的文件特征数据向目标文件进行指定长度的数据内容比对,以判断文件是否包含机密数据;所述文件特征建构流程,处理步骤包括:a.设定数据的读取终点;b.循序读取机密文件的内容,排除空格符、组成一个固定长度的数据区块;c.计算数据区块的字码统计值;d.利用杂凑算法计算数据区块的特征值;e.依据字码统计值将特征值写至不同的特征档案;f.重置字码统计值,并设定下一个读取位置;g.重复步骤b.至f.,直至读取终点才结束;所述文件特征比对流程,处理步骤包括:a.设定目标文件的读取终点;b.依据目标文件的长度设定数据重迭参数;c.循序读取目标文件的内容;d.排除空格符、组成一个固定长度的数据区块;e.计算数据区块的字码统计值;f.利用杂凑算法计算数据区块的特征值;g.依据e.计算得到的字码统计值设定所属的特征数据比对区及其终点;h.特征值的分区循序比对,以判断文件是否包含机密数据;i.重置字码统计值,并依数据重迭参数设定下一个读取位置;j.重复步骤c.至i.,直至读取终点或发现机密数据才结束。
地址 中国台湾桃园县杨梅镇新荣里民族路5段551巷12号