Como superar o erro de dimensão do tensor no CSM Voice Cloning ao processar áudio longo?

2025-08-29

1.6 K

Solução de processo completo para processamento de áudio longo

O sistema informará um erro quando o áudio exceder 3 minutos:

programa de hardware
Atualize sua placa de vídeo para um modelo RTX3060 ou superior com pelo menos 12 GB de memória de vídeo para garantir:
- Versão CUDA ≥ 11.8
- PyTorch com aceleração de cudnn ativada
Ajustes de software
Modificar parâmetros-chave:
1. Encontre o parâmetro max_seq_len em models.py
2. Valor recomendado:
  - 5 minutos de áudio: definido como 6144
  - 10 minutos de áudio: 12288
3. Modificação sincronizada do parâmetro correspondente de llama3_2_100M()
alternativa
Dividir áudio longo usando o ffmpeg:ffmpeg -i long.mp3 -f segment -segment_time 180 -c copy out%03d.mp3