Posição atual:fig. início " Respostas da IA

O formato DocTags é o principal resultado da inovação da SmolDocling!

2025-08-28

1.8 K

Link diretoVisualização móvel

DocTags é uma linguagem de marcação de documentos estruturados projetada especificamente pela equipe de desenvolvimento e criada usando a estrutura semântica JSON-LD. O formato converte os resultados do reconhecimento visual em dados hierárquicos legíveis por máquina: o conteúdo textual mantém as informações originais de coordenadas de localização, as relações entre os elementos do documento são representadas por mapeamento topológico e o conteúdo especializado, como fórmulas e códigos, usa tags de conteúdo padronizadas. Esse design mantém a legibilidade humana e, ao mesmo tempo, oferece suporte ao processamento automatizado para alcançar a fidelidade das informações.

Na prática, os DocTags podem ser convertidos em 12 formatos comuns, como Markdown, HTML ou LaTeX, com um único clique, por meio da biblioteca docling_core de suporte. Os dados de teste mostram que a eficiência da conversão de DocTags para Markdown chega a 2.000 itens de marcação por segundo sem perder nenhuma informação estrutural. O formato também é compatível com o rastreamento de versões e atualizações incrementais, o que é especialmente adequado para cenários de edição colaborativa de documentos.

Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O formato DocTags é o principal resultado da inovação da SmolDocling!