Soluções para otimizar o uso de recursos
O SmolDocling oferece uma solução de otimização tripla para o problema do gargalo de recursos ao executar modelos de linguagem visual em dispositivos comuns:
- Modelo de design leveRedução do espaço de memória em mais de 90% em comparação com os modelos VLM tradicionais, adotando uma arquitetura em miniatura com apenas 256 milhões de parâmetros. O desenvolvedor mantém as características de alta precisão do modelo pequeno por meio de técnicas de destilação de conhecimento.
- Soluções de adaptação de hardware1) Modo de CPU: ambiente de hardware de detecção automática padrão 2) Aceleração de GPU: após instalar a versão CUDA do PyTorch, defina a opção
DEVICE = "cuda"pode chamar os recursos da placa gráfica 3) Computação de precisão mista: por meio dotorch.bfloat16Salvar a memória de vídeo do 40% - Mecanismo de carregamento dinâmicoCarga incremental: Adote a técnica de carga incremental do Hugging Face para carregar apenas os módulos do modelo necessários para o processamento atual, evitando carregar o modelo inteiro na memória.
Sugestão de implementação: 1) Ao processar imagens de alta resolução, use primeiro oload_image()Verifique o espaço de memória 2) Use a estratégia de carregamento de paginação para processamento em lote 3) Habiliteflash_attention_2Reduz ainda mais o consumo de memória da GPU 50%
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO
































