Solução de adaptação de plataforma multi-hardware
As otimizações em nível de compilador do Nunchaku garantem suporte para toda a gama de arquiteturas de GPU da NVIDIA, de Turing a Blackwell. Três opções de adaptação estão disponíveis para diferentes dispositivos de computação:
- As GPUs de desktop ativam automaticamente a aceleração do Tensor Core
- GPUs para notebooks adotam estratégias de otimização de memória
- As placas de computação profissionais (por exemplo, A100) suportam precisão mista FP16
Por meio da otimização em nível de instrução PTX e da detecção de recursos arquitetônicos, a equipe técnica permitiu que a mesma base de código mantivesse um desempenho estável em diferentes gerações de hardware, do RTX 2080 ao RTX 4090, com pacotes de roda pré-compilados para plataformas Windows para resolver problemas de compatibilidade de versão CUDA. Os dados de medição mostram que a potência por watt nos dispositivos de arquitetura Ampere é até 3,2 vezes maior que a das soluções tradicionais.
Essa resposta foi extraída do artigoNunchaku: uma ferramenta de inferência para executar com eficiência os modelos quantificados de 4 bits FLUX.1 e SANAO































