发明名称 一种基于随机映射直方图模型的文本无关说话人鉴别装置
摘要 本发明实施例公开了一种基于随机映射直方图模型的文本无关说话人鉴别方法。该方法包括如下步骤:特征提取步骤:将非归一化递增的线谱频率特征变换归一化的差分线谱频率特征并将相邻帧的差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。模型训练步骤:根据复合差分线谱频率特征的分布特点设计随机映射参数,对训练数据集进行随机映射并通过计算平均直方图来构建概率模型。鉴别步骤:对待鉴别人的语音信号按照步骤一提取特征后输入到步骤二训练得到的模型中,计算针对每个概率模型的似然值,获取最大似然值,确认说话人编号。利用本发明实施例,能够提高文本无关的说话人鉴别率,具有很大的实用价值。
申请公布号 CN103985384B 申请公布日期 2015.04.15
申请号 CN201410232526.2 申请日期 2014.05.28
申请人 北京邮电大学 发明人 于泓;马占宇;郭军
分类号 G10L17/02(2013.01)I;G10L17/04(2013.01)I;G10L25/18(2013.01)I 主分类号 G10L17/02(2013.01)I
代理机构 代理人
主权项 一种基于随机映射直方图模型的文本无关说话人鉴别方法,其特征在于,包括以下步骤:一.特征提取步骤:A、差分线谱频率特征提取:将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征;B、生成复合差分线谱频率特征:将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性;二.随机映射直方图模型训练步骤:对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集;采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征;随机变换方式为y=AX+b,其中A为随机旋转缩放矩阵,b为随机平移向量;b中的每一个元素,应当满足0~1之间的均匀分布;A为单位正交单位矩阵U与对角矩阵Λ的乘积;U由一个所有元素都满足0~1之间的均匀分布的方阵V生成,对V进行QR分解,并根据分解得到的Q矩阵的行列式值是否为1对其左上角元素进行修正来获取U;Λ的对角线元素取值满足θ<sub>min</sub>+log(h<sub>j</sub><sup>‑1</sup>)与θ<sub>max</sub>+log(h<sub>j</sub><sup>‑1</sup>)之间的均匀分布,其中θ<sub>min</sub>=0,θ<sub>max</sub>=2,h<sub>j</sub>为训练特征第j维直方图的最佳bin宽,该数值由训练数据的分布规律来决定;对每组特征进行直方图统计,并利用H组训练特征的平均直方图作为该说话人的概率模型;最终每个说话人都会训练得到一个属于自己的模型;三.鉴别匹配步骤:输入一段语音后,采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中,计算这组特征针对每一个模型的似然值,取其中最大似然值来确认说话人的编号。
地址 100876 北京市海淀区西土城路10号