DocTags é uma linguagem de marcação de documentos estruturados projetada especificamente pela equipe de desenvolvimento e criada usando a estrutura semântica JSON-LD. O formato converte os resultados do reconhecimento visual em dados hierárquicos legíveis por máquina: o conteúdo textual mantém as informações originais de coordenadas de localização, as relações entre os elementos do documento são representadas por mapeamento topológico e o conteúdo especializado, como fórmulas e códigos, usa tags de conteúdo padronizadas. Esse design mantém a legibilidade humana e, ao mesmo tempo, oferece suporte ao processamento automatizado para alcançar a fidelidade das informações.
Na prática, os DocTags podem ser convertidos em 12 formatos comuns, como Markdown, HTML ou LaTeX, com um único clique, por meio da biblioteca docling_core de suporte. Os dados de teste mostram que a eficiência da conversão de DocTags para Markdown chega a 2.000 itens de marcação por segundo sem perder nenhuma informação estrutural. O formato também é compatível com o rastreamento de versões e atualizações incrementais, o que é especialmente adequado para cenários de edição colaborativa de documentos.
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO






























