发明名称 R树上溢结点分裂问题的增量式聚类优化求解方法
摘要 本发明针对R树上溢结点的分裂算法存在的聚类结果不理想以及计算代价过高等问题,提出一种R树上溢结点分裂问题的增量式聚类优化求解方法,属于产品逆向工程技术领域。该方法采用主元分析导向的增量式k均值算法,可在既有分类中心附近的第一主元方向上搜索新的初始分类中心,将该算法与Silhouette指标相结合应用于求解由上溢结点分裂问题所转化的点集聚类问题,能以较小的计算代价自适应获取近似全局最优的点集聚类结果。基于增量式聚类的R树上溢结点分裂算法在R树构建效率、存储利用率及空间查询等方面的综合性能优于现有技术。
申请公布号 CN104731984A 申请公布日期 2015.06.24
申请号 CN201510190617.9 申请日期 2015.04.22
申请人 山东理工大学 发明人 孙殿柱;魏亮;李延瑞;南艳艳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种R树上溢结点分裂问题的增量式聚类优化求解方法,其特征在于步骤依次为:(1) 设上溢结点为<i>E</i>,<i>M</i>为R树结点所容许的子结点数上限值,将<i>E</i>的子结点集<img file="305248dest_path_image001.GIF" wi="28" he="23" />转化为点集<i>P</i>=<img file="425651dest_path_image002.GIF" wi="30" he="23" />,<img file="674230dest_path_image003.GIF" wi="108" he="21" />,计算公式为:<img file="538281dest_path_image004.GIF" wi="86" he="23" />其中<img file="821495dest_path_image005.GIF" wi="33" he="21" />表示的任一子结点<i>e</i>的包围盒,<img file="112799dest_path_image006.GIF" wi="36" he="21" />表示包围盒的中心点; (2) 结合<i>E</i>所在父结点的子结点数和<i>M</i>值确定聚类过程中的分类个数的上限值<i>K</i>;(3) 初始化:循环次数<img file="848673dest_path_image007.GIF" wi="39" he="19" />,最初的单一分类<img file="14950dest_path_image008.GIF" wi="59" he="23" />,初始聚类结果集合<img file="152671dest_path_image009.GIF" wi="70" he="25" />,分类归属记录<img file="614876dest_path_image010.GIF" wi="53" he="23" />,分类的中心<img file="838047dest_path_image011.GIF" wi="79" he="25" />,分类中心集合<img file="43900dest_path_image012.GIF" wi="62" he="23" />,其中<img file="36127dest_path_image013.GIF" wi="29" he="21" />表示计算点集的中心;(4) 采用主元分析导向的增量式k均值算法获取点集<i>P</i>第<i>k</i>+1次聚类结果<img file="669234dest_path_image014.GIF" wi="30" he="23" />;(5) 设<img file="379701dest_path_image015.GIF" wi="41" he="23" />表示第<i>k</i>次聚类结果的Silhouette指标值,若<img file="887780dest_path_image016.GIF" wi="95" he="23" />,跳转至(8),否则<img file="93dest_path_image017.GIF" wi="64" he="23" />;(6)<img file="804101dest_path_image018.GIF" wi="61" he="19" />;(7) 重复(4)至(6),直至<img file="1864dest_path_image019.GIF" wi="41" he="19" />;(8) 根据步骤(1)中确定的子结点集<i>P</i>与<i>E</i>的双射关系以及<img file="549520dest_path_image020.GIF" wi="19" he="23" />中记录的中各点分类归属,对<i>E</i>的子结点进行划分,将所得结果作为<i>E</i>的分裂结果。
地址 255086 山东省淄博市高新技术开发区高创园A座313室