发明名称 一种基于多核融合的多示例多标签场景分类方法
摘要 本发明涉及一种基于多核融合的多示例多标签场景分类方法,包括:输入一个多示例多标签数据集,拆分成多示例数据集和一个多标签数据集;使用不同的阈值分别对多示例数据集中的每个包建立相关性矩阵;根据得到的相关性矩阵求同一阈值下每两个多示例数据包之间的基本核函数,基本核函数值组成基本核矩阵;将不同阈值下的基本核矩阵中相同位置的元素值进行凸组合,得到一个多核矩阵;利用多标签数据集训练,得到多个多核SVM分类器。多核SVM分类器用于对未知的多示例数据包的标签集进行预测从而实现场景分类。本发明的一种基于多核融合的多示例多标签场景分类方法,提高场景分类准确性。本发明还涉及一种基于多核融合的多示例多标签场景分类系统。
申请公布号 CN105046269A 申请公布日期 2015.11.11
申请号 CN201510344990.5 申请日期 2015.06.19
申请人 鲁东大学 发明人 邹海林;陈彤彤;丁昕苗;柳婵娟;刘影;申倩
分类号 G06K9/62(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京轻创知识产权代理有限公司 11212 代理人 王澎
主权项 一种基于多核融合的多示例多标签场景分类方法,其特征在于,包括以下步骤:步骤1,输入一个多示例多标签数据集,记为<img file="FDA0000742014410000011.GIF" wi="577" he="109" />并将所述多示例多标签数据集拆分成一个多示例数据集X={X<sub>i</sub>|i=1,2,...,m}和一个多标签数据集Y={Y<sub>i</sub>|i=1,2,...,m};其中,i为多示例多标签数据集中多示例数据包的编号,m为包的总个数,m取正整数;X<sub>i</sub>指多示例数据集X中编号为i的多示例数据包,记为<img file="FDA0000742014410000015.GIF" wi="441" he="94" />x<sub>i1</sub>表示多示例数据包X<sub>i</sub>中编号为1的示例,x<sub>i2</sub>表示多示例数据包X<sub>i</sub>中编号为2的示例,<img file="FDA0000742014410000013.GIF" wi="69" he="64" />表示多示例数据包X<sub>i</sub>中编号为n<sub>i</sub>的示例,n<sub>i</sub>指编号为i的包中包含的示例个数,n<sub>i</sub>取值为正整数;<img file="FDA0000742014410000016.GIF" wi="426" he="94" />y<sub>i1</sub>表示标签数据集Y<sub>i</sub>中编号为1的标签,y<sub>i2</sub>表示标签数据集Y<sub>i</sub>中编号为2的标签,<img file="FDA0000742014410000014.GIF" wi="67" he="64" />表示标签数据集Y<sub>i</sub>中编号为l<sub>i</sub>的标签,l<sub>i</sub>为标签数据集Y<sub>i</sub>中包含的标签个数,l<sub>i</sub>取值为正整数;步骤2,使用多个阈值中的每一个阈值分别对每个多示例数据包X<sub>i</sub>建立相关性矩阵,则在同一阈值下,每一个多示例数据包都会建立一个相关性矩阵<img file="FDA0000742014410000012.GIF" wi="97" he="68" />所述阈值t<sub>s</sub>∈(t<sub>1</sub>,t<sub>2</sub>,...,t<sub>S</sub>),其中,S为阈值的总个数,s表示阈值的编号;步骤3,根据步骤2中得到的相关性矩阵求同一阈值下每两个多示例数据包之间的基本核函数,所述多个基本核函数值组成基本核矩阵,所述基本核矩阵中的元素值为同一阈值下每两个多示例数据包之间的基本核函数值,所述基本核矩阵中元素值的行号和列号分别对应两个多示例数据包的编号;针对不同的阈值,则会得到不同阈值下的基本核矩阵K<sub>gs</sub>,g为基本核矩阵标识,s为基本核矩阵的编号,与所述阈值的编号一一对应;步骤4,将步骤3中得到的不同阈值下的基本核矩阵K<sub>gs</sub>中相同位置的元素进行组合,得到一个多核函数K(X<sub>i</sub>,X<sub>j</sub>),所述多个多核函数值组成多核矩阵,即所述多核矩阵K中的元素值对应每两个多示例数据包之间的多核函数值;步骤5,利用多标签数据集Y<sub>i</sub>和步骤4中得到的多核函数进行学习,得到多个多核SVM分类器,所述分类器的数量与所述多标签数据集中的标签类数量相同,所述分类器用于对未知多示例数据包的标签集进行预测从而实现场景分类。
地址 264025 山东省烟台市芝罘区红旗中路186号