发明名称 一种基于距离的高准确率全局离群点检测算法
摘要 本发明公开一种基于距离的高准确率全局离群点检测算法,将全局数据集以分块方式进行检测,被检测的每一块数据称为一个数据块;计算所读取数据块中每个对象p与全局数据集内每个对象的距离,同时计算对象p的<img file="DDA0000629449110000011.GIF" wi="112" he="72" />离群度和隐式离群度,如果该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;可以在保留基于距离的通用性的前提下,降低离群点的影响,提高检测准确度。
申请公布号 CN104462379A 申请公布日期 2015.03.25
申请号 CN201410752163.5 申请日期 2014.12.10
申请人 深圳大学 发明人 毛睿;许红龙;陆敏华;李荣华;王毅;刘刚;陆克中
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市兴科达知识产权代理有限公司 44260 代理人 王翀
主权项 一种基于距离的高准确率全局离群点检测算法,包含以下步骤:S1,将全局数据集以分块方式进行检测,被检测的每一块数据称为一个数据块;S2,计算所读取数据块中每个对象p与全局数据集内每个对象的距离,同时计算对象p的<img file="FDA0000629449080000011.GIF" wi="118" he="86" />离群度和隐式离群度,如果该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;S3,根据S2计算的数据块情况维护TOP n<img file="FDA0000629449080000012.GIF" wi="122" he="86" />离群点队列,更新阀值;S4,根据S2计算的数据块情况和S3更新的阀值维护隐式离群点候选集;S5,当所有数据块都按照S2‑S4步骤计算完后,从候选集剔除最大<img file="FDA0000629449080000013.GIF" wi="120" he="85" />离群点并加入TOP n隐式离群点;如果候选集中对象的近邻含有当前最后一个隐式离群点,则删除该近邻;S6,以<img file="FDA0000629449080000014.GIF" wi="114" he="85" />离群度从候选集中计算新的最大离群点,并将其加入TOP n隐式离群点,同时从候选集中剔除;如果隐式离群点数量小于n,则重复S5、S6,否则输出TOP n隐式离群点。
地址 518000 广东省深圳市南山区南海大道3688号