发明名称 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法
摘要 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法,包括定义了基于属性类型的相似度函数计算公式,方法通过应用属性权重和检测阈值综合考虑的同步优化策略,将基于相对权重的特征选择方案,属性权重归一化的约束转换策略,以及蚁群算法求解过程中在不同变量间启发式信息的作用平衡策略,有机地整合起来,使整个方法更加系统、全面,加之整个方法基于领域无关的设计理念,适用范围更加广泛,体现了方法极大的健壮性和良好的可扩展性。
申请公布号 CN101814082B 申请公布日期 2012.05.23
申请号 CN201010018226.6 申请日期 2010.01.20
申请人 中国人民解放军总参谋部第六十三研究所 发明人 曹建军;刁兴春;丁鲲;杜鹢;汪挺;李凯齐;严浩;王芳潇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法,该方法用于领域无关数据清洗中检测和消除相似重复记录,其特征是建立了召回率、准确率和属性集规模综合最优的特征加权和选择数学模型;两记录的相似度函数通过下述公式计算:<maths num="0001"><![CDATA[<math><mrow><msub><mi>S</mi><mi>ij</mi></msub><mo>=</mo><mi>F</mi><mrow><mo>(</mo><msub><mi>s</mi><mrow><mn>0</mn><mi>ij</mi></mrow></msub><mo>,</mo><msub><mi>s</mi><mrow><mn>1</mn><mi>ij</mi></mrow></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>s</mi><mrow><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mi>ij</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>w</mi><mi>k</mi></msub><msub><mi>s</mi><mi>kij</mi></msub></mrow></math>]]></maths>w<sub>0</sub>,w<sub>1</sub>,...,w<sub>(n-1)</sub>≥0,且<img file="FSB00000679998100012.GIF" wi="152" he="92" />其中,s<sub>kij</sub>=f<sub>k</sub>(v<sub>ki</sub>,v<sub>kj</sub>)=f<sub>k</sub>(v<sub>kj</sub>,v<sub>ki</sub>)表示两记录r<sub>i</sub>和r<sub>j</sub>的第k个属性的相似度,假设共有n个属性,v<sub>ki</sub>,k=0,1,...,n-1表示记录r<sub>i</sub>的第k个属性,w<sub>0</sub>,w<sub>1</sub>,...,w<sub>(n-1)</sub>表示各属性的权重,S<sub>ij</sub>为两记录的相似度函数值,通过设定检测阈值δ∈[0,1],当S<sub>ij</sub>>δ时,记录r<sub>i</sub>,r<sub>j</sub>相似重复,否则不相似重复;给定待检记录,用其中的q(1≤q≤n)个属性进行相似重复记录检测,对属性重新编号,属性集为A<sup>q</sup>={α<sub>0</sub>,α<sub>1</sub>,...,α<sub>q-1</sub>},相似度向量为<img file="FSB00000679998100013.GIF" wi="423" he="68" />建立特征加权数学模型如下:max R(w<sub>0</sub>,w<sub>1</sub>,...,w<sub>q-1</sub>;δ)max P(w<sub>0</sub>,w<sub>1</sub>,...,w<sub>q-1</sub>;δ)max W(w<sub>0</sub>,w<sub>1</sub>,...,w<sub>q-1</sub>)s.t.w<sub>0</sub>,w<sub>1</sub>,...,w<sub>q-1</sub>≥0,且<img file="FSB00000679998100014.GIF" wi="184" he="124" />δ∈[0,1]其中,R表示召回率,表示检测出的相似重复记录数占相似重复记录总数的百分比,P表示准确率,表示检测出的真正相似重复记录数占检测出的相似重复记录总数的百分比,<img file="FSB00000679998100015.GIF" wi="470" he="124" />表示属性权重能量和,且<img file="FSB00000679998100016.GIF" wi="356" he="124" />此式说明,属性权重能量和的值域为[1/q,1],其值越大,说明大权重属性越少,即能量越向少数属性集中,此时更多的属性权重接近0,易于进行特征选择;通过上述特征加权数学模型,得到一组属性权重和检测阈值,使召回率和准确率达到综合最优,同时使权重能量向少数属性的权重集中,上述特征加权数学模型的三个目标函数的优先级由高到低;其中,定义了基于相对权重的特征选择方法,通过去除相对权重为零的那些属性完成特征选择,公式如下:<maths num="0002"><![CDATA[<math><mrow><msub><mi>&chi;</mi><mi>k</mi></msub><mo>=</mo><mfrac><msub><mi>w</mi><mi>k</mi></msub><mrow><mi>max</mi><mo>{</mo><msub><mi>w</mi><mn>0</mn></msub><mo>,</mo><msub><mi>w</mi><mn>1</mn></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>w</mi><mrow><mi>q</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>}</mo></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>k=0,1,...,q-1其中,χ<sub>k</sub>∈[o,1]反映了属性α<sub>k</sub>在相似重复记录检测中与权重最大的属性相比较的相对重要程度,若χ<sub>k</sub>→0,则说明属性α<sub>k</sub>的贡献很小;事实上,χ<sub>k</sub>→0的属性还有可能对相似重复记录检测没有贡献,甚至会通过与其它属性竞争权重产生负面影响,将χ<sub>k</sub>→0,即w<sub>k</sub>=0的属性删除,利于将权重向更好的属性集中,提高检测效果和精度,特征选择的过程即将w<sub>k</sub>=0的属性α<sub>k</sub>从属性集A<sup>q</sup>中删除;综合上述特征加权与特征选择,建立了特征加权和选择数学模型:max R(w<sub>0</sub>,w<sub>1</sub>,...,w<sub>q-1</sub>;δ)max P(w<sub>0</sub>,w<sub>1</sub>,...,w<sub>q-1</sub>;δ)min qs.t.0≤q≤n-1δ∈[0,1]通过上述特征加权与选择数学模型,获得属性集A<sup>q</sup>的各属性权重和检测阈值,使召回率和准确率最优,同时使A<sup>q</sup>的规模最小,上述特征加权和选择数学模型的三个目标函数的优先级由高到低,该特征加权和选择数学模型的求解依赖于对上述特征加权数学模型的求解;其中,通过模型分析和约束条件转化,设计了求解特征加权数学模型的基于平移搜索窗口的蚁群优化算法:特征加权数学模型是多目标多约束优化问题,利用蚁群算法对其进行求解,必须首先对属性权重归一化的约束条件进行转化,通过给属性α<sub>k</sub>定义等级l<sub>k</sub>∈[0,+∞),k=0,1,...,q-1,l<sub>k</sub>是连续的,即可以有0等级,等级越高,表示属性越重要,等级划分由蚁群优化实现,然后,将等级值做归一化求取权重,计算公式如下:<maths num="0003"><![CDATA[<math><mrow><msub><mi>w</mi><mi>k</mi></msub><mo>=</mo><mfrac><msub><mi>l</mi><mi>k</mi></msub><mrow><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>q</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>l</mi><mi>k</mi></msub></mrow></mfrac></mrow></math>]]></maths>通过上述转换,将求解特征加权数学模型转化为了间接求取属性等级和检测阈值;所述基于平移搜索窗口的蚁群优化算法需要进行搜索窗口的设定,记属性等级变量l<sub>k</sub>的第D组搜索窗口为<img file="FSB00000679998100023.GIF" wi="553" he="52" />D=0,1,2,...,k=0,1,...q-1,L<sub>kDB</sub>,L<sub>kDE</sub>分别为第D组第k个窗口的起点和终点,则记初始搜索窗口为L<sub>k0</sub>=[L<sub>k0B</sub>,L<sub>k0E</sub>],即基准区域,再记网格宽度为Δl,即搜索精度,窗口的网格数为M,每个窗口包含M+1个网格点,根据属性等级的实际意义,q个初始窗口均设定为以L<sub>k0C</sub>=1为中心,既基准点,等级值相等,即属性重要程度相同,各属性权重均为<img file="FSB00000679998100031.GIF" wi="57" he="98" />即算法从等权重邻近区域开始搜索,设Δl=0.1,M=10,则L<sub>k0</sub>=[0.5,1.5],每个窗口含11个网格点;记检测阈值变量δ的第D组搜索窗口为<img file="FSB00000679998100032.GIF" wi="439" he="46" />D=0,1,2,...,Φ<sub>kB</sub>,Φ<sub>kE</sub>分别为第D组窗口的起点和终点,相应的,记初始窗口为Φ<sub>0</sub>=[Φ<sub>0B</sub>,Φ<sub>0E</sub>],网格宽度为Δδ,为了方便处理,并使不同类型的变量构成的解空间得到同等遍历,窗口网格数同样为M,根据相似重复记录检测阈值设定经验,最优阈值靠近其取值范围的上界,所以将初始窗的基准点设置为定义域的上边界,即Φ<sub>0E</sub>=1,设Δδ=0.01,则Φ<sub>0</sub>=[0.90,1.00],每个窗口含11个网格点,为了平衡算法求解过程中不同变量的启发式信息,以使蚁群在不同变量的搜索空间内启发信息对转移概率的作用一致,需要将启发式信息对两类变量的作用进行平衡,启发式信息矩阵η<sub>xy</sub>由下式计算:<maths num="0004"><![CDATA[<math><mrow><msub><mi>&eta;</mi><mi>xy</mi></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mo>|</mo><msub><mi>L</mi><mi>xDB</mi></msub><mo>+</mo><mi>y&Delta;l</mi><mo>-</mo><msub><mi>L</mi><mrow><mi>x</mi><mn>0</mn><mi>C</mi></mrow></msub><mo>|</mo></mtd><mtd><mi>x</mi><mo>=</mo><mn>0,1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>q</mi><mo>-</mo><mn>1</mn></mtd></mtr><mtr><mtd><mrow><mo>(</mo><msub><mi>&Phi;</mi><mrow><mn>0</mn><mi>E</mi></mrow></msub><mo>-</mo><mrow><mo>(</mo><msub><mi>&Phi;</mi><mi>DB</mi></msub><mo>+</mo><mi>y&Delta;&delta;</mi><mo>)</mo></mrow><mo>)</mo></mrow><mfrac><mi>&Delta;l</mi><mi>&Delta;&delta;</mi></mfrac></mtd><mtd><mi>x</mi><mo>=</mo><mi>m</mi><mo>-</mo><mn>1</mn></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>通过启发式信息矩阵的计算表达式,优先选择离初始窗基准点远的网格点,即每次窗口更新有较远平移,以快速到达更优区域;用网格宽度比平衡不同类型变量的启发式信息;启发式信息随窗口平移具有动态自适应性,离基准区域越远,各网格点的启发式信息差异越小,启发式信息的作用也相对减弱。
地址 210007 江苏省南京市白下区后标营18号