发明名称 数据聚类的方法及装置
摘要 本发明公开了一种数据聚类的方法及装置,涉及数据处理技术领域,主要目的在于解决当聚类中心点较多时,由于每次迭代过程中均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长的问题。本发明的技术方案包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;根据第二距离、第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值;按照三角形不等式规则将第一距离的预测值与第三距离的预测值进行比较;若第三距离的预测值大于或者等于两倍的第一距离的预测值,则将第二聚类中心点丢弃。本发明主要应用于使用聚类算法对数据进行分类的过程中。
申请公布号 CN105095912A 申请公布日期 2015.11.25
申请号 CN201510477834.6 申请日期 2015.08.06
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 杨诗;向园;洪春晓;吕俊
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京鼎佳达知识产权代理事务所(普通合伙) 11348 代理人 王伟锋;刘铁生
主权项 一种数据聚类的方法,其特征在于,包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)