大規模テキストの音声合成を自動化するには？

2025-08-27

1.4 K

直接リンクモバイルビュー

背景条件

電子書籍、コース・プリント、その他の1万字程度のコンテンツでは、従来のツールでは、処理の中断やセグメンテーション・エラーなどの問題があった。

技術実現の道筋
1. 章ごとにドキュメントを複数の.txtファイルに分割（1ファイルあたり5000文字以下）
2. プロジェクトAPIインターフェース経由の一括提出（同時実行数≤3は設定可能）
3. ウェブフックを使って処理完了通知を受け取る
自動コンフィギュレーション
- .envにMAX_BATCH_SIZE=2000を設定する。
- crontab経由でscripts/auto_convert.pyを時間差で実行する。
- 出力ファイルは自動的にUUIDで命名され、保存されます。
例外処理
- ネットワーク中断後の断続的な転送をサポート
- log/error_details.jsonエラーログの提供
- 設定可能な文字割り当て警告のしきい値

重複するコンテンツについては、同じテキストハッシュを一度だけ合成するスピーチキャッシュ機能を有効にすることをお勧めします。