海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

遅延ストリーム・モデリングを使ったリアルタイム字幕生成の正確な手順は？

2025-08-23

1.0 K

完全なワークフロー

ステップ1：環境準備

PyTorch/MLX (Runtime) または Rust (Production Server) を選択します。
対応するバージョンのモデルパッケージ (moshi-mlx または moshi-server) をインストールしてください。
ダウンロードstt-2.6b-en高精度英語モデル

ステップ2：オーディオ入力の設定

リアルタイム・マイク入力：追加--micパラメトリック
ファイル入力：WAV/MP3ファイルのパスを指定します。
ネットワークストリーミング入力：WebSocket経由でオーディオデータチャンクを転送する

主要パラメータ設定

パラメトリック	指示	推奨値
-温度	サンプリング温度	0（決定論的出力）
-バッド・スレッシュ	言語活動閾値	0.3（騒音環境用に上方修正）
-最大遅延	最大許容遅延	500（ミリ秒）

とおす--output-json構造化された結果を得ることができる：

トランスクリプト：本文の完全な書き起こし
word_timings: 単語レベルのタイムスタンプの配列
信頼度：信頼スコア

出力後処理の推奨

字幕ファイル生成：

タイムスタンプをSRT/VTT形式に変換する
利用するffmpeg埋め込みビデオ
字幕行の長さを調整する（3～5秒を推奨）

リアルタイムのディスプレイ最適化：

WebSocket経由でフロントエンドにプッシュする
ジッターを避けるために0.2秒のバッファーを追加
現在読み上げ中の単語をハイライトすることで、読みやすさを向上させます。

この答えは記事から得たものである。Kyutai：リアルタイム音声テキスト変換ツールについて

無断転載を禁じます：AI生産性ツール " 遅延ストリーム・モデリングを使ったリアルタイム字幕生成の正確な手順は？

おすすめ