Para garantir os melhores resultados, os seguintes pontos devem ser observados:
- Qualidade de entradaResolução da imagem: Recomenda-se que a resolução da imagem seja de 300 dpi ou superior, evitando reflexos fortes de luz. A caligrafia deve ser clara
- Configuração de hardware: É necessário pelo menos 4 GB de memória para processar documentos de tamanho A4, e o corte é recomendado para arquivos muito grandes.
- parametrizaçãoDocumentos complexos precisam aumentar o valor max_new_tokens; a tabela pode ser definida como 16384 quando a tabela densa
Soluções para problemas comuns:
- Conteúdo ausente: verifique se o limite de tokens foi atingido ou se a imagem está distorcida.
- Erros de formatação: atualize a biblioteca docling_core para a versão mais recente.
- GPU não ativada: verifique se o PyTorch para CUDA está instalado!
Para aplicativos corporativos, é recomendado:
- Estabelecimento do fluxo de pré-processamento de imagens (corte/aperfeiçoamento automático)
- Ajuste fino do modelo de prompt para tipos de documentos específicos
- Limpar periodicamente o cache do modelo (armazenado por padrão em ~/.cache/huggingface/)
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO





























