このプロセスにより、字幕は正確に配置されます:
- フォーマット選択非圧縮WAVフォーマット(16bit/44.1kHz)を採用し、デコードのレイテンシーを低減。
- パラメータ校正srtインターフェイスに以下を追加する。
?word_timestamps=true
タイムスタンプの取得 - 手動校正字幕編集などのツールで音声波形を読み込み、キーフレームを微調整。
- 耐障害性ワーカーがタイムアウトして不完全なデータを返すときは
start_time=上次结束时间
残りのミッションの継続
最終偏差は±200ms以内に制御できる。
この答えは記事から得たものである。ウィスパー・オン・クラウドフレアAI:音声をテキストに変換し、字幕を生成する無料ツールについて