問題の原因
特にSMALLモデル(パラメータ372M)を使用する場合、1時間以上の連続したオーディオを直接ロードすると、メモリ不足になる可能性があります。
体系的なソリューション
- 必須セグメンテーション::
ffmpeg -i long.mp3 -f segment -segment_time 300 splits/output%03d.wav
- 加工戦略::
- 無音部分の優先順位付け (via
--vad_threshold 0.7(調整感度) - ジェネレーターを使ってブロックごとにロードする
for chunk in dolphin.chunk_audio(waveform, size=16000*60): process(chunk)
- 無音部分の優先順位付け (via
資源配分
ハードウェアに合わせる:
- CPU環境:設定OMP_NUM_THREADS=4
- クラウドサーバー:有効--use_tensorrt加速(TensorRTが必要)
- モバイル:コンパイル時に追加-DENABLE_QUANTIZATION=ON
この答えは記事から得たものである。ドルフィン:アジア言語認識とアジア言語のための音声テキストモデルについて































