Uma solução completa para acelerar o desempenho da inferência
As seguintes estratégias de otimização podem ser usadas para resolver o gargalo da velocidade de geração:
- Ativar atenção ao flashExecutar no momento da instalação
pip install flash-attn --no-build-isolationEssa tecnologia melhora a velocidade de inferência do 30% (requer placas de vídeo RTX série 30/40 ou mais recentes) - Configuração otimizada da memória de vídeo: Configurações
--enable_xformers Trueem conjunto com o parâmetrotorch.backends.cuda.enable_flash_sdp(True)Possibilitando a computação eficiente na memória - Aceleração em nível de hardwareem GPUs habilitadas para FP8 Tensor Core, como a NVIDIA H100, usando o
--precision fp8Os parâmetros recebem um aumento de velocidade de 2x
Os dados de teste mostram que o tempo de geração de imagens de 512 x 512 pode ser reduzido de 5 segundos para 2,8 segundos na placa de vídeo H800 (após a aplicação de todas as otimizações).
Essa resposta foi extraída do artigoStep1X-Edit: uma ferramenta de código aberto para editar imagens com instruções em linguagem naturalO































