Solução de processo completo para processamento de áudio longo
O sistema informará um erro quando o áudio exceder 3 minutos:
- programa de hardware
Atualize sua placa de vídeo para um modelo RTX3060 ou superior com pelo menos 12 GB de memória de vídeo para garantir:- Versão CUDA ≥ 11.8
- PyTorch com aceleração de cudnn ativada
- Ajustes de software
Modificar parâmetros-chave:- Encontre o parâmetro max_seq_len em models.py
- Valor recomendado:
- 5 minutos de áudio: definido como 6144
- 10 minutos de áudio: 12288
- Modificação sincronizada do parâmetro correspondente de llama3_2_100M()
- alternativa
Dividir áudio longo usando o ffmpeg:ffmpeg -i long.mp3 -f segment -segment_time 180 -c copy out%03d.mp3
Essa resposta foi extraída do artigoClonagem de voz CSM: clonagem rápida de voz com o CSM-1BO































