Três maneiras de resolver o problema de memória de vídeo CUDA insuficiente
O CSM Voice Cloning depende da GPU para a inferência do modelo, o que pode causar interrupções quando a placa de vídeo local fica com pouca memória de vídeo. Veja abaixo uma solução passo a passo:
- Método 1: Reduzir a amostra de áudio
Corte as amostras de áudio recebidas para 30 segundos a 1 minuto, reduzindo significativamente o espaço ocupado pela memória gráfica. Recomenda-se usar ferramentas como o Audacity para capturar a parte mais clara da pronúncia. - Método 2: mudar para execução na nuvem
Use GPUs em nuvem por meio da plataforma Modal:- Instale o cliente Modal:
pip install modal - Configure a conta:
modal token new - Execute o script da nuvem:
modal run modal_voice_cloning.py
- Instale o cliente Modal:
- Método 3: Ajuste dos parâmetros do modelo
Modifique o parâmetro max_seq_len em models.py para reduzi-lo para 2048 ou 1024, observando que isso pode afetar a qualidade da geração de áudio longo.
Essa resposta foi extraída do artigoClonagem de voz CSM: clonagem rápida de voz com o CSM-1BO































