发明名称 基于EMD距离的大规模图像数据相似性搜索方法
摘要 本发明公开了一种基于EMD距离的大规模图像数据相似性搜索方法,步骤包括:设计用于映射至一维实数键值空间Ω(Φ)的图像数据映射函数f;启动作业MR1,估计Ω(Φ)中各键值的负载;启动作业MR2,通过Map任务基于所估计的键值负载对Ω(Φ)进行切割,将切割区域对应的数据分片发送给Reduce任务;基于f将各Reduce任务接收的图像数据映射至Ω(Φ)中的键值,基于该键值构建面向EMD距离的索引结构;基于该索引结构执行基于EMD距离的相似性搜索;将MR2中各Reduce任务基于EMD距离相似性搜索的执行结果取并集输出。本发明具有网络传输数据量更低、计算负载分配更均衡,相似性搜索效率更高、对大数据集分析处理可扩展性更好的优点。
申请公布号 CN104679887A 申请公布日期 2015.06.03
申请号 CN201510117037.7 申请日期 2015.03.17
申请人 广西大学 发明人 许嘉;吕品;李陶深;陈宁江;许华杰;文珺;张佳振
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 湖南兆弘专利事务所 43008 代理人 谭武艺
主权项 一种基于EMD距离的大规模图像数据相似性搜索方法,其特征在于步骤包括:1)设计用于将图像数据映射至一维实数键值空间Ω(Φ)的图像数据映射函数f,所述图像数据映射函数f包含图像数据和一维实数键值空间Ω(Φ)中键值之间的映射关系;2)启动一个MapReduce作业MR1,通过MapReduce作业MR1基于查询图像集Q和待检索图像集I估计所述一维实数键值空间Ω(Φ)中各个键值所对应的查询处理负载量;3)启动一个MapReduce作业MR2,通过MapReduce作业MR2的Map任务基于所述步骤2)估计得到的查询处理负载量对一维实数键值空间Ω(Φ)进行切割,分别将所述一维实数键值空间Ω(Φ)不同切割区域所对应的查询图像集Q中的图像数据分片或待检索图像集I中的图像数据分片发送给MapReduce作业MR2中的各个Reduce任务;4)基于所述图像数据映射函数f将MapReduce作业MR2中各个Reduce任务所接收的图像数据分片划分为查询图像集数据分片Q′和待检索图像集数据分片I′并分别映射至一维实数键值空间Ω(Φ),得到查询图像集数据分片Q′或待检索图像集数据分片I′在一维实数键值空间Ω(Φ)中对应的键值;基于所述待检索图像集数据分片I′在一维实数键值空间Ω(Φ)中对应的键值构建面向EMD距离的索引;5)所述MapReduce作业MR2中各个Reduce任务分别基于所述面向EMD距离的索引执行查询图像集数据分片Q′中的每个查询对象在待检索图像集数据分片I′上基于EMD距离的相似性搜索;6)MapReduce作业MR2中的每个Reduce任务将查询图像集数据分片Q′中每个查询对象基于EMD距离的相似性搜索的执行结果取并集输出。
地址 530004 广西壮族自治区南宁市西乡塘区大学东路100号广西大学计算机与电子信息学院