DSM技術の遅延最適化原理
KyutaiのDelayed Stream Modelling (DSM)テクノロジーは、革新的なストリーミングアーキテクチャにより500ミリ秒のレイテンシーを実現します。従来のバッチモデルとは異なり、DSMは時間整合されたオーディオとテキストストリーム処理を使用し、モデルはオーディオストリームを受信すると徐々に部分的なテキスト結果を生成します。この設計により、処理を開始する前に完全な音声入力を待つという問題を回避することができます。
次に、十分な音声特徴が得られるとすぐにデコード処理を開始するインクリメンタルデコードメカニズム、そして最後に、フラッシュトリックアクセラレーション技術である。これは、音声の終わりが検出されると残りの処理を即座に完了し、待ち時間を500ミリ秒から125ミリ秒に短縮することができる。
実際のSpeech-to-Textテストデータによると、L40S GPUで1Bパラメータモデルを実行した場合、英語のリアルタイム文字起こしレイテンシは0.45~0.55秒の範囲で安定しており、フランス語の処理は約0.6秒とわずかに高い。この性能は、ほとんどのリアルタイム対話シナリオのニーズをすでに満たすことができます。
この答えは記事から得たものである。Kyutai:リアルタイム音声テキスト変換ツールについて































