Solução de balanceamento de carga multi-GPU
Três pontos-chave para obter uma computação paralela eficiente:
- Alocação do senso de memóriaEspecifique o número real de GPUs disponíveis por meio de -gpu_num, e o sistema adotará automaticamente a política de paralelismo do modelo.
- Ajuste do tamanho do loteModifique o parâmetro batch_size em video_generate.py (é necessário editar o código manualmente); recomenda-se alocar 1-2 lotes por GPU.
- otimização das comunicaçõesOs usuários da NVIDIA podem definir a variável de ambiente NCCL_P2P_DISABLE=1 para evitar que a largura de banda PCIe se torne um gargalo.
Para servidores compartilhados com vários usuários, a variável de ambiente CUDA_VISIBLE_DEVICES pode ser usada para limitar as GPUs visíveis. Ao lidar com vídeos muito longos, é recomendável usar um esquema de geração segmentada e, em seguida, de costura.
Essa resposta foi extraída do artigoSkyReels-V1: Modelos de vídeo de código aberto para geração de vídeos de ação humana de alta qualidadeO




























