Posição atual:fig. início " Respostas da IA

O que é o SmolDocling e quais são seus principais recursos?

2025-08-28

1.7 K

Link diretoVisualização móvel

O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M. Seus principais recursos são o tamanho pequeno (apenas 256 milhões de parâmetros) e a alta eficiência, o que o torna particularmente adequado para execução em dispositivos comuns. O modelo está hospedado na plataforma Hugging Face e é o menor modelo de linguagem visual do mundo.

Os principais recursos incluem:

Extração de texto (OCR)Suporte para reconhecimento de texto multilíngue
Análise de layoutReconhecimento automático de títulos, parágrafos e outras estruturas de documentos
Processamento de conteúdo profissionalBlocos de código (em formato reservado), fórmulas matemáticas e dados gráficos podem ser extraídos.
Saída estruturadaGeração de documentos padronizados no formato DocTags
Suporte a alta resoluçãoOtimização do manuseio de imagens grandes

Diferentemente de outros modelos visuais de uso geral, o SmolDocling é otimizado para tarefas de conversão de documentos e é especialmente adequado para pesquisas acadêmicas, processamento de documentos de programação e outros aplicativos que exigem a análise precisa de conjuntos de tipos complexos.

Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O que é o SmolDocling e quais são seus principais recursos?