Como o menor Visual Language Model (VLM) do mundo em termos de tamanho de parâmetro, o SmolDocling tem apenas 256 milhões de parâmetros e foi desenvolvido em conjunto pela equipe do ds4sd e pela IBM. Criado com base na arquitetura enxuta SmolVLM-256M, ele se caracteriza por sua capacidade de obter um processamento eficiente de documentos, mantendo um tamanho reduzido. Em comparação com os VLMs tradicionais de grande escala, que geralmente exigem bilhões de parâmetros, o SmolDocling otimizou especialmente suas técnicas de compactação de modelos para permitir que ele seja executado sem problemas em dispositivos de computação comuns. A natureza da hospedagem de código aberto na plataforma Hugging Face reduz ainda mais a barreira para o uso da tecnologia.
O design miniaturizado do modelo tem várias vantagens: reduz a ocupação da memória em mais de 70%, melhora a velocidade de inferência em mais de 10 vezes e oferece suporte à operação em ambientes sem GPU. Os dados experimentais mostram que a precisão do reconhecimento de documentos de 88,7% ainda pode ser mantida em uma escala de parâmetros de 256M, o que é particularmente adequado para dispositivos incorporados e cenários de computação de ponta. Esse caminho de implementação miniaturizado representa um avanço importante no desenvolvimento da tecnologia VLM em direção à leveza e à civilização.
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO





























