发明名称 一种基于分层聚类的均衡图像聚类方法
摘要 本发明公开了一种基于分层聚类的均衡图像聚类方法,本发明针对服饰类商品图像高维特征数据,采用基于层次聚类的方法,获得大小均衡的聚类簇,且单个聚类簇包含的数据量不超过限定的阈值。检索时,将被检索数据与所有聚类中心进行距离计算后,选取最近的多个聚类簇,在多个聚类簇内部进行数据遍历,获得最后的查询结果。相对于通用的基于聚类的索引方法,该方法避免了当被检索数据处于大聚类簇时遍历数据量过大的问题,保证了查询的性能。同时,通过遍历多聚类簇的方式,查询结果与SSA的查询结果有更高的重合度,提高了查询效果。
申请公布号 CN103049514B 申请公布日期 2016.08.10
申请号 CN201210545637.X 申请日期 2012.12.14
申请人 杭州淘淘搜科技有限公司 发明人 薛亮;孙凯
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 周烽
主权项 一种基于分层聚类的均衡图像聚类方法,其特征在于,包含如下步骤:(1)在建立索引时,首先对图像特征数据进行初始聚类;(2)对步骤(1)得到的每个聚类簇进行聚类切分操作;具体步骤为:检查该聚类所包含的图像个数;如果该聚类中心包含的图像个数大于设置的上限N<sub>top</sub>,则在聚类内部进行二分聚类;如果二分聚类的结果包含的数据量仍超过N<sub>top</sub>,则对二分聚类的结果迭代此过程;将数据量不超过N<sub>top</sub>的聚类簇中心记录到聚类中心文件中;之后将该类目所有图像特征数据按照获得的聚类中心进行组织;(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,c值由系统参数指定;之后在c个聚类簇的内部进行数据遍历,得到最后的查询结果。
地址 310012 浙江省杭州市文二路391号西湖国际科技大厦B-3-611室