发明名称 基于视觉特征和语义特征的跨媒体检索方法
摘要 本发明针对互联网海量异构数据之间错综复杂的关系的公开了一种基于视觉特征和语义特征的跨媒体检索方法,主要包括以下几个步骤:第一步,使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;第二步,针对不同数据源,分别编写不同的模板,对网页进行基于模板的信息提取,对数据进行解析去噪,并存入数据库中;第三步,对图片提取特征值并建立索引,建立语义关联图;第四步,使用SVM支持向量机和已经训练过的模型,对内容进行分类;第五步,根据提取出的视觉特征和语义特征,计算不同类型数据之间的相似距离,分析不同类型数据之间的关联性。采用本方法,可以较有效地挖掘出不同类型数据之间的关联性。
申请公布号 CN105912684A 申请公布日期 2016.08.31
申请号 CN201610235578.4 申请日期 2016.04.15
申请人 湘潭大学 发明人 唐欢容;欧阳建权;徐竟达;汤陈蕾;王中涛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 代理人 徐楼
主权项 基于视觉特征和语义特征的跨媒体检索方法,该方法包括以下步骤:A)数据抓取:使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;B)数据或信息的初步处理:针对不同数据源,分别编写不同的模板,并且对网页进行基于模板的信息提取,对提取的数据或信息进行解析去噪,并存入数据库中;C)从存储的数据或信息分别提取视觉特征和提取语义特征,该步骤C)包括以下子步骤:C1)提取视觉特征:提取图片特征,生成一个表示图片特征的144维直方图;和C2)提取语义特征:首先,C21)基于同时出现在一个网页中的图片存在一定的语义相关性的假设,以网页为共现窗口,设计共生算法得到第一阶段的语义关系图,即,将网页作为结点,最终不同的网页之间生成彼此不连通的图;其次,C22)对各个网页的所有图像根据CEDD、FITC图像特征(或根据SIFT等局部特征)应用Affinity Propagation算法进行聚类,同一类的图像视为类似图像,同一类的图像合并为一个点,该点保持与其他点关联,因此将彼此不连通的图连通并形成语义信息丰富的语义关系图,即,生成语义关联图;D)内容分类:使用SVM支持向量机和已经训练过的模型,对通过爬虫抓取到的数据或信息的内容进行分类;E)跨媒体检索:根据上述子步骤C1)所提取出的视觉特征和上述子步骤C2)所提取出的语义特征,计算不同类型数据之间的相似距离,从而分析不同类型数据之间的关联性,进行检索。
地址 411105 湖南省湘潭市羊牯塘27号