摘要 |
【課題】文境界識別器を用いずに、音声認識結果を文ごとに分割することができる音声認識装置を提供する。【解決手段】所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、発話を検出済みの音声信号である発話検出済み音声信号と、発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、発話検出済み音声信号の発話またはポーズの始端および終端時刻とを用いて、発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、文境界候補の特徴量に基づいて文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する文境界検出部を含む。【選択図】図4 |