摘要 |
Un système synthétiseur texte-parole en temps réel de grande qualité (Fig. 1) manipule un vocabulaire illimité avec un minimum d'équipement en utilisant une méthodologie de domaine temporel compatible avec le logiciel du micro-ordinateur qui nécessite un minimum de mémoire de puissance de calcul. Le système compare tout d'abord les mots du texte à un dictionnaire d'exceptions (Fig. 2). Si le mot n'y est pas trouvé, le système applique les règles de prononciation standard au mot du texte. Dans les deux cas, le mot du texte est converti en une séquence de phonèmes. Grâce à l'utilisation de tables de consultation adressées par des pointeurs contenus dans une matrice de phonèmes et de transitions (Fig. 3), le synthétiseur traduit la séquence de phonèmes et de transitions en des séquences de courts segments de parole pouvant être exprimés en termes de répétition de parties de longueurs variables, de courtes formes d'ondes à stockage numérique. En général, des transitions non voisées, sont produites par une séquence de segments pouvant être enchaînés dans un ordre avant ou arrière afin de produire différentes transitions à partir des mêmes segments; simultanément, des transitions voisées sont produites par interpolation de phonèmes adjacents pour des économies supplémentaires de mémoire. La hauteur du son peut être modifiée en vue du caractère naturel du son, et/ou des changements d'intonation dérivés des mots clés et/ou de la ponctuation du texte, en tronquant ou en allongeant les formes d'ondes de périodes vocales individuelles correspondant aux segments voisés. |