Guia para otimizar cenários de computação de borda
A seguinte combinação de tecnologias é recomendada para as necessidades de implementação em ambientes com recursos limitados:
- Compressão do modelo::
- fazer uso de
Knowledge_DistillationScript no diretório para destilar o Qwen3-4B para a versão 1.7B - Realizar a quantificação de 8 bits após o treinamento (para obter um exemplo, consulte
inference/quantization.py)
- fazer uso de
- adaptação de hardware::
- Habilitando a aceleração do TensorRT em dispositivos NVIDIA Jetson
- O Raspberry Pi e outros dispositivos ARM precisam ser convertidos para o formato ONNX
- carregamento dinâmico (computação)Combine os recursos do LoRA para carregar apenas o modelo básico + adaptador de domínio (
.bin(Os arquivos geralmente têm menos de 200 MB) - Otimização de cacheModificação
inference_dirty_sft.pyacertou em cheiomax_seq_lenParâmetros para controlar o espaço ocupado pela memória
Testes empíricos mostram que o Qwen3-1.7B quantificado pode atingir uma velocidade de geração de 5 tokens/s em um dispositivo de memória de 4 GB.
Essa resposta foi extraída do artigoQwen3-FineTuning-Playground: uma base de código pronta para uso para o ajuste fino dos grandes modelos do Qwen3.O































