O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M. Seus principais recursos são o tamanho pequeno (apenas 256 milhões de parâmetros) e a alta eficiência, o que o torna particularmente adequado para execução em dispositivos comuns. O modelo está hospedado na plataforma Hugging Face e é o menor modelo de linguagem visual do mundo.
Os principais recursos incluem:
- Extração de texto (OCR)Suporte para reconhecimento de texto multilíngue
- Análise de layoutReconhecimento automático de títulos, parágrafos e outras estruturas de documentos
- Processamento de conteúdo profissionalBlocos de código (em formato reservado), fórmulas matemáticas e dados gráficos podem ser extraídos.
- Saída estruturadaGeração de documentos padronizados no formato DocTags
- Suporte a alta resoluçãoOtimização do manuseio de imagens grandes
Diferentemente de outros modelos visuais de uso geral, o SmolDocling é otimizado para tarefas de conversão de documentos e é especialmente adequado para pesquisas acadêmicas, processamento de documentos de programação e outros aplicativos que exigem a análise precisa de conjuntos de tipos complexos.
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO































 Português do Brasil
Português do Brasil				 简体中文
简体中文					           English
English					           日本語
日本語					           Deutsch
Deutsch