发明名称 基于词归类组合判定与概率统计的涉密信息密级归属方法
摘要 一种基于词归类组合判定与概率统计的涉密信息密级归属方法,模拟人工学涉密归属过程建立涉密条件数据库和词归类数据库,涉密条件依据保密条例以词类的组合中的每一个类作为涉密必要条件,与带分析文章中的词类组合比较,判断涉密级别。本发明通过计算机分析文章的语句内容,忽略语句的语法表达,将语句抽象成为词类的逻辑组合,并对照保密规定的组合条件,判定文章涉密信息密级,为客观、快速的判定涉密文章和涉密级别提供了可行的基础。
申请公布号 CN103870758B 申请公布日期 2016.05.11
申请号 CN201410103973.8 申请日期 2014.03.20
申请人 陈建;欧阳国华;杨兴;李楠 发明人 陈建;欧阳国华;杨兴;李楠;史章军;向音;吕慧芳
分类号 G06F21/60(2013.01)I 主分类号 G06F21/60(2013.01)I
代理机构 武汉楚天专利事务所 42113 代理人 雷速
主权项 一种基于词归类组合判定与概率统计的涉密信息密级归属方法,其特征是:按下述步骤顺次进行:第一步:建立密级条件数据库:逐条分析保密条例,并收集与该保密条例相关的文章,将文章中与条例对应的涉密信息归纳为若干必要条件的相关词和相关词组合,包括相关词和相关词组合、涉及条件类别、涉及领域、对应的条例编号,建立逻辑关联,录入密级条件数据库;分别按照“绝密级条件数据库”、“机密级条件数据库”、“秘密级条件数据库”三个子库进行独立收集;第二步:建立和丰富词归类数据库:(一)、在与对应保密条例相关的文章中统计所有该条例涉及到的必要条件的组合,并归纳为若干条件大类;(二)、分析每个条件大类,确定每个条件大类所包含的类的集合;将每一词归类再逐级分解为若干类的子集,直至集合不可再分;(三)、分析每一个末端子集,列出其中具有代表性的词语或词组,依照逐级从属的逻辑关系建立词归类数据库;(四)、从词归类数据库中读取词语或词组,运用抓词技术,根据代表词语或词组,扫描现有密级文章,根据词归类数据库所保存的词的类抓取具体词汇,排除错词、误词,丰富词归类数据库;第三步:对待定密级文章初定密级:(一)、扫描文章的段落或语句,利用正则表达式表述已经在词归类数据库中归类的信息,根据该信息特征将文章语句中符合词归类数据库的词语提取出来;(二)、索引词归类数据库,判断词汇所属的类;(三)、确定语句或段落中的类的组合;(四)、判断语句或段落中类的组合是否完全满足密级条件数据库中的任一组合条件,满足则认定该语句或段落所属部分的密级为该组合条件所在数据库的密级,文章的涉密级别按照文章中全部语句或段落之中密级的最高级定义,密级的高低顺序依次为绝密&gt;机密&gt;秘密,如果不满足任何涉密条件,则文章不涉密;第四步:确定密级:文章中出现多处满足秘密或机密级的条件时,由下述方式确定是否将文章密级升级:(一)、在不同领域中,找出涉密领域为i的文章m篇,m≥500,分析与该领域直接相关的涉密信息,发现密级升高的情况为k篇,该领域内涉密文章密级上升所需要的最少信息的数量为b<sub>i</sub>,则:b<sub>i</sub>=MIN(集合{a<sub>ij</sub>}),表示为涉密领域i中的k篇密级升高文章中每篇涉密信息的数量中的最小值,其中a<sub>ij</sub>表示涉密领域i中的第j篇文章的涉密信息的数量,其中j表示1~k之中的一个数;(二)、对于初步判定为非绝密级的涉密文件,依照公式<maths num="0001"><math><![CDATA[<mrow><mi>&alpha;</mi><mo>=</mo><mfrac><msub><mi>c</mi><mi>i</mi></msub><msub><mi>b</mi><mi>i</mi></msub></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000871192290000021.GIF" wi="203" he="127" /></maths>其中,c<sub>i</sub>表示文章中在领域i中的涉密信息的数量,当密级升级条件α≥1则判定文章密级升级。
地址 430035 湖北省武汉市罗家墩122号