Estratégias de ajuste para ambientes com recursos limitados
As seguintes combinações otimizadas são recomendadas para dispositivos com menos de 16 GB de memória:
- Seleção de modelos
- Versão preferencial 8B (requer modificação)
inference.pyacertou em cheio--model(Parâmetros) - Habilitando a quantificação de 8 bits: Instalação
bitsandbytese adicione o pacote--load_in_8bitparâmetros
- Versão preferencial 8B (requer modificação)
- aceleração da computação
- Forçar Flash-Attention (especificado durante a instalação)
--no-build-isolation) - Limitar o tamanho do lote de inferência (configuração)
--batch_size 1)
- Forçar Flash-Attention (especificado durante a instalação)
- gerenciamento de memória
- Ativar pontos de verificação de gradiente: no script de treinamento, adicione
gradient_checkpointing=True - Treinamento com precisão mista: configurações de perfil
fp16: true
- Ativar pontos de verificação de gradiente: no script de treinamento, adicione
- Programa de emergênciaQuando ocorre um erro OOM
- Tentativa de liberar o cache:
torch.cuda.empty_cache() - Reduzir a resolução da imagem (modificar o parâmetro de redimensionamento no código de pré-processamento)
- Tentativa de liberar o cache:
dados em tempo realA placa de vídeo GTX 1060 também é otimizada para executar tarefas básicas de raciocínio sem problemas.
Essa resposta foi extraída do artigoMM-EUREKA: uma ferramenta de aprendizagem por reforço multimodal para explorar o raciocínio visualO































