发明名称 聚类方法及装置
摘要 本公开实施例公开了一种聚类方法及装置,所述聚类方法将样本数据中类间Rank-Order距离D<sup>R</sup>(C<sub>i</sub>,C<sub>j</sub>)、类间归一化Rank-Order距离D<sup>N</sup>(C<sub>i</sub>,C<sub>j</sub>)和类间绝对距离d(C<sub>i</sub>,C<sub>j</sub>)符合条件的类进行迭代合并,其中,通过类间Rank-Order距离D<sup>R</sup>(C<sub>i</sub>,C<sub>j</sub>)和类间归一化Rank-Order距离D<sup>N</sup>(C<sub>i</sub>,C<sub>j</sub>)可以度量类与类之间的邻居关系,通过类间绝对距离d(C<sub>i</sub>,C<sub>j</sub>)度量类与类之间的绝对距离关系,根据类间绝对距离可以准确度量两个类直接的相似度,根据类间绝对距离将相似度较小的类划分出来,即确定出类中的离群点。从而实现在聚类过程中将相似度较小的离群点剔除掉,提高聚类结果的准确率。尤其,当样本数据中数据对象较多,但属于同一类的数据对象比较少时,聚类结果的准确比较高。
申请公布号 CN104268149A 申请公布日期 2015.01.07
申请号 CN201410432412.2 申请日期 2014.08.28
申请人 小米科技有限责任公司 发明人 陈志军;张涛;龙飞
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京弘权知识产权代理事务所(普通合伙) 11363 代理人 逯长明;许伟群
主权项 一种聚类方法,其特征在于,包括:获取样本数据中任意两个类C<sub>i</sub>与C<sub>j</sub>之间的类间Rank‑Order距离D<sup>R</sup>(C<sub>i</sub>,C<sub>j</sub>)、类间绝对距离d(C<sub>i</sub>,C<sub>j</sub>)及类间归一化Rank‑Order距离D<sup>N</sup>(C<sub>i</sub>,C<sub>j</sub>);针对所述样本数据中的任意两个类C<sub>i</sub>与C<sub>j</sub>,根据所述类间Rank‑Order距离D<sup>R</sup>(C<sub>i</sub>,C<sub>j</sub>)、所述类间归一化Rank‑Order距离D<sup>N</sup>(C<sub>i</sub>,C<sub>j</sub>)和所述类间绝对距离d(C<sub>i</sub>,C<sub>j</sub>),判断所述两个类C<sub>i</sub>与C<sub>j</sub>是否是候选合并类;当所述任意两个类C<sub>i</sub>与C<sub>j</sub>是候选合并类时,合并所述候选合并类,并更新类的数量;当更新后的类的数量比更新前的类的数量少时,返回执行获取任意两个类C<sub>i</sub>与C<sub>j</sub>之间的类间Rank‑Order距离D<sup>R</sup>(C<sub>i</sub>,C<sub>j</sub>)、类间绝对距离d(C<sub>i</sub>,C<sub>j</sub>)及类间归一化Rank‑Order距离D<sup>N</sup>(C<sub>i</sub>,C<sub>j</sub>)的步骤,直到更新后的类的数量与更新前的类的数量相同,得到聚类结果。
地址 100085 北京市海淀区清河中街68号华润五彩城购物中心二期13层