Esses dois erros comuns estão normalmente relacionados ao comprimento da amostra de áudio ou à configuração do hardware e podem ser resolvidos com as seguintes soluções:
Erro de dimensão do tensor:
- Ajustar comprimento da sequência::
- show (um ingresso)
models.pypapéis - modificações
llama3_2_1B()responder cantandollama3_2_100M()acertou em cheiomax_seq_lenParâmetro (padrão 4096, pode ser aumentado para 8192)
- show (um ingresso)
- Edição de áudioCorte a amostra para 2 minutos e 50 segundos (duração recomendada).
Memória CUDA insuficiente:
- Reduzir a duração da amostraUse clipes de áudio mais curtos (recomenda-se um teste com amostras de 30 segundos).
- Reduzir o tamanho do lote: em
voice_clone.pyAjuste o parâmetro batch_size - Mudar o modo de operaçãoMude para o processamento em nuvem modal para contornar as limitações da memória gráfica local.
- Verificação de hardwareCertifique-se de que a placa gráfica tenha pelo menos 6 GB de memória dedicada disponível (RTX 2060 ou superior).
Se o problema persistir, você pode tentar limpar o cache da GPU ou reiniciar o ambiente Python. A seção Problemas do repositório GitHub do projeto também fornece soluções adicionais da comunidade.
Essa resposta foi extraída do artigoClonagem de voz CSM: clonagem rápida de voz com o CSM-1BO































