发明名称 针对易标错音素之形素进行重新评分以提高准确率之文字转音标的方法
摘要 本发明系有关于一种针对易标错音素之形素进行重新评分以提高准确率之文字转音标的方法,其系对一输入文字进行形素切割及音素标示,以产生至少一形素-音素配对序列及其相对应分数;进而由具有较高分数之前至少一个形素-音素配对序列中,对具有易标错形素的形素-音素配对序列,依据每一易标错的形素,选取其前后文的特征,来评断与计算该等特征于该形素对应的音素之关联性,俾以对此形素-音素配对序列进行重新评分,而以具有最高分数之形素-音素配对序列作为转换之结果。
申请公布号 TWI233589 申请公布日期 2005.06.01
申请号 TW093105860 申请日期 2004.03.05
申请人 财团法人工业技术研究院 发明人 林一中;洪鹏翔;王稔志
分类号 G10L13/08;G06F17/21 主分类号 G10L13/08
代理机构 代理人
主权项 1.一种针对易标错之形素进行重新评分以提高准 确率之文字转音标的方法,包括: 一形素-音素配对序列产生步骤,系对一输入文字 进行形素切割及音素标示,以产生至少一形素-音 素配对序列,每一形素-音素配对序列包括至少一 形素及其对应之音素,并计算每一形素-音素配对 序列之分数;以及 一重新评分步骤,系由具有较高分数之前至少一个 形素-音素配对序列中,对具有预设之易标错形素 的形素-音素配对序列,依据每一易标错的形素,选 取其前后文的特征,来计算该等特征跟该易标错形 素对应的音素的关联性,俾以对此形素-音素配对 序列进行重新评分,而以具有最高分数之形素-音 素配对序列作为转换之结果。 2.如申请专利范围第1项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,计算易标错形素与前后文特征之间的关联性 系交互资讯(mutual information)。 3.如申请专利范围第1项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,该形素-音素配对序列产生步骤包括: 一形素切割步骤,系依据一预设之形素集合中所具 有之形素,而对该输入文字进行形素切割以取得至 少一形素序列,每一形素序列包含多个形素,并求 取每一形素序列之分数; 一音素标示步骤,系依据一预设之形素对应音素之 关系,而对具有较高分数之前至少一个形素序列来 进行音素的标示,以对每一形素序列取得至少一个 音素序列,并求取每一音素序列之分数,且对每一 形素序列之对应音素序列,取具有较高分数之前至 少一个音素序列,而产生该至少一形素-音素配对 序列。 4.如申请专利范围第2项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该重新评分步骤中,系对每一形素-音素配 对序列进行重新评分如下: 当中,gi为形素序列之形素,fi为音素序列之音素,Wj 为权重値,E代表该易标错形素之集合,X(i)为选取之 特征的集合,xj代表特征集合X(i)中的任一特征。 5.如申请专利范围第4项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,X(i)为: 当中,i≡gifi,L、R代表形素gi之上下文资讯的范 围,N为所选取具有较高分数形素-音素配对序列的 个数,y为g、f或,而l、r则代表y出现的位置必须 要在i-L及i+R之间。 6.如申请专利范围第3项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,每一形素-音素配对序列之分数SG2P系为: SG2P=wGSG+wPSP, 当中,SG为其形素序列之分数,SP为其音素序列之分 数,WG及WP为权重値。 7.如申请专利范围第6项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该形素切割步骤中,所求取之每一形素序 列之分数SG为: 当中,gi为该形素序列之形素,n为该形素序列所包 含形素的个数,N代表利用gi前面的N个形素来决定gi 的分数。 8.如申请专利范围第6项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该音素标示步骤中,所求取之每一音素序 列之分数SP为: 当中,fi为该音素序列之音素,L、R代表形素gi之上 下文资讯的范围,n为该音素序列所包含音素的个 数。 9.如申请专利范围第4项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该重新评分步骤中,经重新评分后之每一 形素-音素配对序列之分数SFinal为: SFinal=wG2PSG2P+wRSR, 当中,WG2P及WR为权重値。 10.如申请专利范围第1项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,该输入文字为罗马拼音之文字。 11.如申请专利范围第1项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该重新评分步骤中,该易标错的形素为英 文之母音。 12.如申请专利范围第1项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该重新评分步骤中,该等前后文的特征包 括音素、形素及形素-音素配对。 13.如申请专利范围第3项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该音素标示步骤中,在预设之形素对应音 素之关系中,每一形素对应有至少一音素。 14.如申请专利范围第3项所述之针对易标错之形素 进行重新评分以提高准确率之文字转音标的方法, 其中,于该形素切割步骤中,系以N-gram模型来对输 入文字进行形素切割。 图式简单说明: 图1系本发明之针对易标错之形素进行量新评分以 提高准确率之文字转音标的方法之流程。 图2系依据本发明之方法的步骤所建立之一图网。 图3系依据本发明之方法的所获得之形素之音标的 正确率。
地址 新竹县竹东镇中兴路4段195号