发明名称 |
一种基于分层聚类的均衡图像聚类方法 |
摘要 |
本发明公开了一种基于分层聚类的均衡图像聚类方法,本发明针对服饰类商品图像高维特征数据,采用基于层次聚类的方法,获得大小均衡的聚类簇,且单个聚类簇包含的数据量不超过限定的阈值。检索时,将被检索数据与所有聚类中心进行距离计算后,选取最近的多个聚类簇,在多个聚类簇内部进行数据遍历,获得最后的查询结果。相对于通用的基于聚类的索引方法,该方法避免了当被检索数据处于大聚类簇时遍历数据量过大的问题,保证了查询的性能。同时,通过遍历多聚类簇的方式,查询结果与SSA的查询结果有更高的重合度,提高了查询效果。 |
申请公布号 |
CN103049514B |
申请公布日期 |
2016.08.10 |
申请号 |
CN201210545637.X |
申请日期 |
2012.12.14 |
申请人 |
杭州淘淘搜科技有限公司 |
发明人 |
薛亮;孙凯 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
杭州求是专利事务所有限公司 33200 |
代理人 |
周烽 |
主权项 |
一种基于分层聚类的均衡图像聚类方法,其特征在于,包含如下步骤:(1)在建立索引时,首先对图像特征数据进行初始聚类;(2)对步骤(1)得到的每个聚类簇进行聚类切分操作;具体步骤为:检查该聚类所包含的图像个数;如果该聚类中心包含的图像个数大于设置的上限N<sub>top</sub>,则在聚类内部进行二分聚类;如果二分聚类的结果包含的数据量仍超过N<sub>top</sub>,则对二分聚类的结果迭代此过程;将数据量不超过N<sub>top</sub>的聚类簇中心记录到聚类中心文件中;之后将该类目所有图像特征数据按照获得的聚类中心进行组织;(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,c值由系统参数指定;之后在c个聚类簇的内部进行数据遍历,得到最后的查询结果。 |
地址 |
310012 浙江省杭州市文二路391号西湖国际科技大厦B-3-611室 |