A implementação do vLLM proporciona ganhos significativos de desempenho para o dots.ocr:
- Aceleração do raciocínioA tecnologia PagedAttention do vLLM otimiza o uso da memória para permitir o processamento de alto rendimento de 1,7 bilhão de modelos paramétricos em uma única placa de GPU.
- Suporte servido: através de
vllm serve
para iniciar o serviço de API e facilitar a integração com o pipeline de processamento de documentos corporativos. - Otimização da utilização de recursos: Parâmetros
--gpu-memory-utilization 0.95
pode maximizar o uso dos recursos da GPU, enquanto o--tensor-parallel-size
Suporta a expansão de vários cartões.
Em comparação com o raciocínio nativo do HuggingFace, a versão vLLM pode ser de 2 a 3 vezes mais rápida no processamento de documentos em lote, o que é especialmente adequado para cenários que exigem análise em tempo real. Ao implantar, é importante observar a etapa de registro de um modelo personalizado no vLLM (modificando omodeling_dots_ocr_vllm
).
Essa resposta foi extraída do artigodots.ocr: um modelo visual-linguístico unificado para análise de layout de documentos multilínguesO