一种基于类边界分布特性的音频分类器训练方法,申请号CN201310374246.0-传众专利搜索

发明名称	一种基于类边界分布特性的音频分类器训练方法
摘要	本发明公开了一种基于类边界分布特性的音频分类器训练方法，具体步骤为：一：输入初始已标注音频样本集L，未标注音频样本集U；二：用初始已标注音频样本训练初始SVM分类器；三：寻找当前分类器分类间隔内的稀疏区域；四：将稀疏区域扩展至包含混淆区域；五：消除信息含量大的样本中存在的冗余；六：将信息含量大的样本标注后放入已标注样本集L中；七：用更新的已标注样本集L重新训练SVM分类器；八：判断是否满足停止准则，满足则停止迭代，输出训练好的SVM分类器；不满足则重复步骤三～步骤七。本发明的样本选择兼顾了稀疏性、混淆性和多样性，选择的样本的信息含量较大，因此能训练得到分类性能较高的音频分类器，且能减少人工标注的工作量。
申请公布号	CN103412945B	申请公布日期	2016.08.10
申请号	CN201310374246.0	申请日期	2013.08.23
申请人	山东师范大学	发明人	冷严;王孝朋;齐广慧;徐新艳
分类号	G06F17/30(2006.01)I;G06K9/62(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南圣达知识产权代理有限公司 37221	代理人	张勇
主权项	一种基于类边界分布特性的音频分类器训练方法，其特征是，具体步骤为：步骤一：输入初始已标注音频样本集L和未标注音频样本集U，建立音频样本数据库，并利用初始已标注音频样本集L对SVM分类器进行第一次训练；步骤二：确定当前SVM分类器的稀疏区域，并将稀疏区域扩展至包含混淆区域，从扩展后的稀疏区域内选出分类信息量大的样本，并消除信息量大的样本中存在的冗余；步骤三：将分类信息量大的样本交由专家标注后放入已标注样本集L中；步骤四：用更新的已标注音频样本集L再次训练SVM分类器；步骤五：判断是否满足停止准则，满足则停止迭代，输出训练好的SVM分类器；不满足则重复步骤二～步骤四；所述步骤二的具体步骤为：步骤(2‑1)：将当前分类器的分类间隔等分成M个互不交叠的区域，得到具有M个柱状体的直方图H，根据直方图H中各个柱状体的概率值求得待分类的两类样本的熵和，将能使该熵和取最大值的柱状体所代表的连续区域定义为当前SVM分类器分类间隔内的稀疏区域；步骤(2‑2)：利用直方图中各个柱状体的混淆率对当前SVM分类器的稀疏区域进行扩展，使得扩展后的稀疏区域包含混淆区域；步骤(2‑3)：将扩展后的稀疏区域内的样本按照其决策值与扩展前稀疏区域内的样本的平均决策值的差值绝对值大小进行升序排序，排序后根据样本不共享最近邻支持向量的原则以及样本不能互为最近邻的原则，消除信息含量大的样本中存在的冗余。
地址	250014 山东省济南市历下区文化东路88号