摘要 |
Ein Schlüsselwort wird in gesprochener Sprache erkannt, indem zu jedem Abtastzeitpunkt ein Anfang dieses Schlüsselwortes angenommen wird. Es wird sodann versucht, dieses Schlüsselwort auf eine Folge von HMM-Zuständen, die das Schlüsselwort darstellen, abzubilden. In einem Darstellungsraum wird mittels Viterbi-Algorithmus der beste Pfad ermittelt, anstelle einer im Viterbi-Algorithmus verwendeten Emissionswahrscheinlichkeit wird ein lokales Konfidenzmass eingesetzt. Unterschreitet ein globales Konfidenzmass, das sich aus lokalen Konfidenzmassen zusammensetzt, für den besten Viterbi-Pfad eine untere Schranke, so wird das Schlüsselwort erkannt, der als Anfang des Schlüsselwortes angenommene Abtastzeitpunkt bestätigt sich.
|