Programas alternativos de implementação em ambientes com recursos limitados
Uma solução em camadas para a situação comum de memória de vídeo insuficiente:
- Programas básicos::
- Versão quantisada 7B preferencial (somente 14 GB para FP16, até 8 GB para INT8)
- começar a usar
--load-in-4bit
Os parâmetros são quantificados posteriormente - Usar o modo CPU (requer instalação)
transformers
+accelerate
)
- Programa intermediário::
- Adoção da triagem de API: enviar consultas complexas para modelos 32B na nuvem, consultas simples processadas localmente
- Usando técnicas de divisão de modelos (por exemploacelerar(usado em uma expressão nominal)
device_map
(Função) - Aluguel de instâncias de GPU na nuvem (por exemplo, A100 para o Colab Pro)
- Programa Avançado::
- Retreinamento de modelos leves (com base em um subconjunto do conjunto de dados SynSQL)
- Implemente um mecanismo de cache de consulta para retornar diretamente o SQL histórico para perguntas duplicadas.
- fazer uso de
vLLM
O recurso de processamento contínuo em lote do aprimoramento da produtividade
Observação: o modelo 32B é recomendado para ser executado em dispositivos A100 40G e superiores; considere também o serviço da API de inferência da HuggingFace.
Essa resposta foi extraída do artigoOmniSQL: um modelo para transformar a linguagem natural em consultas SQL de alta qualidadeO