O SmolDocling alcança aplicativos civis por meio de um design triplamente leve: o nível do modelo usa a tecnologia de destilação de conhecimento para compactar a escala de parâmetros; o consumo de memória do tempo de execução é controlado em 2 GB; e as bibliotecas de dependência exigem apenas duas estruturas básicas, PyTorch e Transformers. Isso permite que ele seja executado sem problemas em dispositivos do nível do Raspberry Pi, e a velocidade de processamento medida em um laptop com CPU de 4 núcleos/8 GB de RAM ainda pode chegar a 7 páginas/minuto.
A solução de implantação fornece o empacotamento em contêineres do Docker e a interface da API REST em duas formas para dar suporte à rápida integração com os sistemas existentes. O caso da instituição educacional mostra que são necessárias apenas 2 horas para concluir uma implantação distribuída de 50 nós de computação em um cluster de servidores do campus. Esse recurso de baixo limiar permite que a tecnologia penetre rapidamente nos fluxos de trabalho de digitalização de documentos de PMEs, instituições educacionais e departamentos governamentais.
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO
































