Causas do problema
O carregamento direto de mais de 1 hora de áudio contínuo pode resultar em falta de memória, especialmente ao usar o modelo SMALL (parâmetros 372M).
Soluções sistemáticas
- segmentação obrigatória::
ffmpeg -i long.mp3 -f segment -segment_time 300 splits/output%03d.wav
- estratégia de processamento::
- Priorizar peças silenciosas (via
--vad_threshold 0.7(Sensibilidade de ajuste) - Carregar bloco por bloco usando o gerador
for chunk in dolphin.chunk_audio(waveform, size=16000*60): process(chunk)
- Priorizar peças silenciosas (via
Alocação de recursos
Ajuste ao hardware:
- Ambiente da CPU: ConfiguraçõesOMP_NUM_THREADS=4
- Servidores em nuvem: ativado--use_tensorrtAceleração (TensorRT necessário)
- Celular: adicionar em tempo de compilação-DENABLE_QUANTIZATION=ON
Essa resposta foi extraída do artigoDolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticosO































