完全なワークフロー
ステップ1:環境準備
- PyTorch/MLX (Runtime) または Rust (Production Server) を選択します。
- 対応するバージョンのモデルパッケージ (moshi-mlx または moshi-server) をインストールしてください。
- ダウンロード
stt-2.6b-en高精度英語モデル
ステップ2:オーディオ入力の設定
- リアルタイム・マイク入力:追加
--micパラメトリック - ファイル入力:WAV/MP3ファイルのパスを指定します。
- ネットワークストリーミング入力:WebSocket経由でオーディオデータチャンクを転送する
主要パラメータ設定
| パラメトリック | 指示 | 推奨値 |
|---|---|---|
| -温度 | サンプリング温度 | 0(決定論的出力) |
| -バッド・スレッシュ | 言語活動閾値 | 0.3(騒音環境用に上方修正) |
| -最大遅延 | 最大許容遅延 | 500(ミリ秒) |
とおす--output-json構造化された結果を得ることができる:
- トランスクリプト:本文の完全な書き起こし
- word_timings: 単語レベルのタイムスタンプの配列
- 信頼度:信頼スコア
出力後処理の推奨
字幕ファイル生成:
- タイムスタンプをSRT/VTT形式に変換する
- 利用する
ffmpeg埋め込みビデオ - 字幕行の長さを調整する(3~5秒を推奨)
リアルタイムのディスプレイ最適化:
- WebSocket経由でフロントエンドにプッシュする
- ジッターを避けるために0.2秒のバッファーを追加
- 現在読み上げ中の単語をハイライトすることで、読みやすさを向上させます。
この答えは記事から得たものである。Kyutai:リアルタイム音声テキスト変換ツールについて































