A SmolDocling tem três diferenciais principais:
- Extrema levezaParâmetros de 256M são 10 a 100 vezes menores do que os VLMs convencionais e podem ser executados em hardware de nível de consumidor
- Especialização em documentosFormato de saída DocTags projetado para análise de documentos, mais estruturado do que o JSON/XML genérico
- Capacidade de análise de precisãoMelhor do que as ferramentas genéricas de OCR no reconhecimento de conteúdo especializado, como recuo de código, símbolos de fórmulas, etc.
Em comparação com a versão básica do SmolVLM:
- Herda o recurso de tamanho pequeno, mas se concentra no processamento de documentos em vez de na compreensão genérica de imagens
- Adicionar processamento otimizado para imagens de alta resolução
- Algoritmos especializados para análise de layout de documentos incorporados
Testes práticos mostram que, ao lidar com documentos complexos, como artigos acadêmicos, a precisão do reconhecimento de fórmulas e tabelas é 15-20% maior do que a dos modelos de uso geral, enquanto o uso da memória é reduzido em mais de 60%.
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO































 Português do Brasil
Português do Brasil				 简体中文
简体中文					           English
English					           日本語
日本語					           Deutsch
Deutsch