主权项 |
一种基于距离的高准确率全局离群点检测算法,包含以下步骤:S1,将全局数据集以分块方式进行检测,被检测的每一块数据称为一个数据块;S2,计算所读取数据块中每个对象p与全局数据集内每个对象的距离,同时计算对象p的<img file="FDA0000629449080000011.GIF" wi="118" he="86" />离群度和隐式离群度,如果该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;S3,根据S2计算的数据块情况维护TOP n<img file="FDA0000629449080000012.GIF" wi="122" he="86" />离群点队列,更新阀值;S4,根据S2计算的数据块情况和S3更新的阀值维护隐式离群点候选集;S5,当所有数据块都按照S2‑S4步骤计算完后,从候选集剔除最大<img file="FDA0000629449080000013.GIF" wi="120" he="85" />离群点并加入TOP n隐式离群点;如果候选集中对象的近邻含有当前最后一个隐式离群点,则删除该近邻;S6,以<img file="FDA0000629449080000014.GIF" wi="114" he="85" />离群度从候选集中计算新的最大离群点,并将其加入TOP n隐式离群点,同时从候选集中剔除;如果隐式离群点数量小于n,则重复S5、S6,否则输出TOP n隐式离群点。 |