发明名称 用于动态视觉的基于流形正则化的半监督分类器设计方法
摘要 本发明是一种用于动态视觉的基于流形正则化的半监督分类器设计方法,该分类器在动态视觉环境下的训练数据来源:由用户采集的带有类别信息的数据包含目标的正类样本和不包含目标的负类样本,计算机在视频中随机采集的无类别信息的数据;利用数据的局部线性重构系数,定义了分类器在样本数据集上的连续性正则项,使得分类器对无类别信息数据的利用效率得到了提高。并且在求解分类器系数的优化问题中对函数复杂度和函数连续性正则项的定义设定为1范数的形式,从而优化问题的解得是分类器系数的稀疏解,即训练得到的分类器也是稀疏的。使得分类器在动态视觉任务中的实时性得到了提高。
申请公布号 CN102129570A 申请公布日期 2011.07.20
申请号 CN201010034352.0 申请日期 2010.01.19
申请人 中国科学院自动化研究所 发明人 樊明宇;乔红;区志财
分类号 G06K9/66(2006.01)I 主分类号 G06K9/66(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 梁爱荣
主权项 1.一种用于动态视觉的基于流形正则化的半监督分类器设计方法,其特征在于,该方法的步骤为:步骤1:用户在动态视觉系统的常用环境下拍摄视频,视频信息中必须含有需要识别的目标和平常使用时的背景环境;步骤2:由用户在该视频中采集包含目标正样本和不包含目标的负样本;该正样本和负样本的集合表示为P={(x<sub>i</sub>,y<sub>i</sub>),i=1,…l},x<sub>i</sub>是以向量形式的样本数据,y<sub>i</sub>表示x<sub>i</sub>的分类信息,y<sub>i</sub>=1表示x<sub>i</sub>属于正类样本,y<sub>i</sub>=-1表示x<sub>i</sub>数据属于负类样本,l是整数代表了带分类信息样本的个数;步骤3:由计算机自动地对给定视频的重采样得到多个不含类别信息的样本,不含类别信息样本的集合表示为,U={x<sub>l+j</sub>,j=1,…u},u是整数代表了无分类信息样本的个数,令样本数据集Γ=P∪U;步骤4:对于样本数据集Γ={(x<sub>i</sub>,y<sub>i</sub>);x<sub>l+j</sub>,i=1,…l,j=1,…u},确定样本数据集中样本数据的邻居关系;步骤5:用优化算法计算x<sub>i</sub>及与x<sub>i</sub>具有邻居关系的邻居样本两者的重构权重或相似度向量w<sub>i</sub>:<maths num="0001"><![CDATA[<math><mrow><msub><mi>w</mi><mi>i</mi></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>min</mi></mrow><mi>w</mi></munder><mi>&phi;</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>min</mi></mrow><mi>w</mi></munder><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>l</mi><mo>+</mo><mi>u</mi></mrow></munderover><msub><mi>w</mi><mi>ij</mi></msub><msub><mi>x</mi><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>,</mo></mrow></math>]]></maths>其中,对w<sub>i</sub>的限制条件为<img file="F2010100343520C00012.GIF" wi="206" he="127" />并且w<sub>ij</sub>≥0、如果x<sub>i</sub>和x<sub>j</sub>不是邻居关系,则计算机自动地指定w<sub>ij</sub>=0,从而得到关于Γ的权系数矩阵W=(w<sub>1</sub>,…,w<sub>u+l</sub>);步骤6:对任意样本数据x的一般的分类器表示为<img file="F2010100343520C00021.GIF" wi="516" he="121" />其中α<sub>i</sub>和b是待定的分类器系数,核函数k<sub>σ</sub>(x,x<sub>i</sub>)定义为k<sub>σ</sub>(x,x<sub>i</sub>)=exp(-||x-x<sub>i</sub>||<sup>2</sup>/σ<sup>2</sup>),σ是一个给定的非零实数,利用最优化数值计算方法求解待定的分类器系数α<sub>i</sub>和b的1范数的优化问题如下公式表示:<maths num="0002"><![CDATA[<math><mrow><mrow><mo>(</mo><msup><mi>&alpha;</mi><mo>*</mo></msup><mo>,</mo><msup><mi>b</mi><mo>*</mo></msup><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>min</mi></mrow><mrow><mi>&alpha;</mi><mo>&Element;</mo><msup><mi>R</mi><mrow><mi>u</mi><mo>+</mo><mi>l</mi></mrow></msup><mo>,</mo><mi>b</mi><mo>&Element;</mo><mi>R</mi></mrow></munder><mfrac><mn>1</mn><mi>l</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>u</mi><mo>+</mo><mi>l</mi></mrow></munderover><msub><mi>&alpha;</mi><mi>j</mi></msub><msub><mi>k</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>b</mi><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msub><mi>&gamma;</mi><mi>A</mi></msub><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>u</mi><mo>+</mo><mi>l</mi></mrow></munderover><msqrt><msub><mi>k</mi><mi>&sigma;</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow></msqrt><mo>|</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>|</mo><mo>+</mo><msub><mi>&gamma;</mi><mi>I</mi></msub><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>u</mi><mo>+</mo><mi>l</mi></mrow></munderover><mo>|</mo><msub><mi>A</mi><mi>ii</mi></msub><mo>|</mo><mo>|</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>|</mo><mo>,</mo></mrow></math>]]></maths>由上述公式得到待定分类器的系数值为<img file="F2010100343520C00023.GIF" wi="480" he="60" />从而得到样本数据的分类器函数f(x),其中γ<sub>A</sub>和γ<sub>I</sub>是给定的正权值,A<sub>ii</sub>是矩阵KLK第i个对角元素,核矩阵K的第i行j列位置上的元素是k<sub>σ</sub>(x<sub>i</sub>,x<sub>j</sub>),矩阵L=D-W,D是第i个对角元<img file="F2010100343520C00024.GIF" wi="268" he="81" />的对角矩阵;步骤7:获得分类器f(x)之后,从摄像头获得当前时刻的一帧图像剪裁成N个m×n大小的图像小块并转化为向量形式,形成采样数据集X={x<sub>1</sub>,…,x<sub>N</sub>},将采样数据集X中的所有样本分别代入分类器f(x)中,如果对采样数据集X中的某个样本数据的分类器的输出值大于零并且是所有输出值中最大的,则该样本所对应的区域就是动态视觉系统所关注的需要识别目标所在区域。
地址 100080 北京市海淀区中关村东路95号