发明名称 一种基于分布式自然韵律优化本地合成方法
摘要 一种基于分布式自然韵律优化本地合成效果的方法,用于低码率传输自然语音韵律信息并在本地合成,包括以下步骤:由录音数据或者服务器级别的合成系统,生成合成文本的前端标注信息和语音韵律信息。然后通过网络的方式将信息下载到本地,本地使用这些信息结合后端系统合成。由于使用了更好的前端信息和后端韵律参数,提升了本地合成的韵律,从而提高本地合成效果。同时由于基频和时长占用的数据量很少,相比传统网络合成方式响应速度更快和流量更少。
申请公布号 CN103077705B 申请公布日期 2015.03.04
申请号 CN201210585840.X 申请日期 2012.12.30
申请人 安徽科大讯飞信息科技股份有限公司 发明人 郜静文;殷翔;孙见青;江源;刘艳茹;袁武文;张鑫;孙梦娟;赵志伟;吴晓如
分类号 G10L13/10(2013.01)I 主分类号 G10L13/10(2013.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉
主权项 一种基于分布式自然韵律优化本地合成方法,其特征在于包括:合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤;第一步,利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息,并进行编码,用于网络传输;所述参数信息包含基频,时长和频谱信息,其中基频和时长信息在网络端生成;具体实现如下:(1)如果没有录音数据,则文本输入到服务器合成系统,文本前端信息和基频、时长信息均能够利用服务器合成系统生成,由于服务器端相对于终端设备有更多的运算和存储空间,服务器端能够配置最好的语音合成系统,从而获得更准确的前端和基频、时长信息;(2)如果是已有的录音数据,则分为以下三步进行提取:(2.1)合成文本前端信息根据录音数据获取,先生成相应的韵律文本,再转换为语音对应的标注文本;(2.2)时长信息通过发音人已有的合成模型进行状态时长切分,时长信息为音素的状态时长,每个音素包含5个状态,时长信息提前生成,不用等到待合成时再生成;基频信息利用STRAIGHT工具生成,或者使用人工标注的基频,之后按照音素对应的状态为单位,进行基频静态参数均值和一阶动态参数均值的计算,计算以帧为单位,5ms一帧,其中基频静态参数为当前帧F0的对数值,即lf0,一阶动态参数为后一帧的lf0减去前一帧的lf0,差值除以2,基频静态参数均值是对一个状态下所有浊音帧对应基频静态参数总和的平均,一阶动态参数均值是对一个状态下所有浊音帧对应基频一阶动态参数总和的平均;(2.3)将提取得到的合成文本前端信息输出到文本文件中,而基频均值、时长信息整合到二进制文件中用于网络传输;第二步,低码率网络传输将第一步生成的合成文本前端信息的文本文件和基频均值、时长的二进制文件通过网络方式传输到终端设备上;第三步,终端设备接收到网络数据后,利用本地合成器解析与合成,具体步骤为:(3.1)本地合成器接收到合成文本前端信息进行文本解析后,采用传统参数生成方法,由本地合成模型决策得到文本对应的频谱信息;(3.2)由网络传输得到二进制文件,解码后得到相应的状态时长与基频均值数据,根据MLPG(Maximum Likelihood Parameter Generation)算法生成基频数值,结合上述生成的频谱信息,利用本地参数合成器完成合成,输出合成语音数据;所述第三步中(3.2)所述的MLPG算法即为,在基频参数生成中,使用解码后的基频均值数据对原合成模型决策所得的基频均值进行替换,之后基于状态进行解参,得到每一帧对应的基频数值,最后使用替换后的时长、MLPG算法得到的基频结合本地频谱进行参数合成,MLPG算法计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><mi>arg</mi><mi></mi><mi>max</mi><mi></mi><mi>log</mi><mi>P</mi><mrow><mo>(</mo><mi>WC</mi><mo>|</mo><mi>Q</mi><mo>,</mo><mi>&lambda;</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>=</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mi>C</mi><mi>T</mi></msup><msup><mi>W</mi><mi>T</mi></msup><msup><mi>U</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>WC</mi><mo>+</mo><msup><mi>C</mi><mi>T</mi></msup><msup><mi>W</mi><mi>T</mi></msup><msup><mi>U</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>M</mi><mo>+</mo><mi>const</mi></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000561613370000021.GIF" wi="950" he="222" /></maths>以上为HMM状态观察概率的表达式,其中:C为待生成状态的静态参数矢量,每一维为一帧对应的基频数值,W为窗函数矩阵,U为本地决策树得到的静态参数对应的协方差矩阵,M为全部待合成状态的基频静态参数均值和一阶动态参数均值矢量,const是独立于CW的分量,为了最大化上述观察概率,对公式中的C求偏导,当静态参数C满足下式时,使状态观察概率最大,W<sup>T</sup>U<sup>‑1</sup>WC=W<sup>T</sup>U<sup>‑1</sup>MM替换为经网络传输、解码过后的基频均值,即已获取的自然韵律基频静态参数均值和一阶动态参数均值矢量,U和W的数值已知,由上述公式解得基频静态参数矢量C,从而获得每一帧的基频数值。
地址 230088 安徽省合肥市高新开发区望江西路666号