Os DocTags de saída padrão do SmolDocling podem ser convertidos em vários formatos usando a biblioteca docling_core:
Método de conversão básico
- Para Markdown: Uso
export_to_markdown()que preserva perfeitamente a hierarquia do cabeçalho e os blocos de código - Para HTMLAdequado para publicação na Web, manterá o estilo do formulário como está.
- Para o LaTeXUsuários acadêmicos podem usá-lo para fórmulas matemáticas
Técnicas avançadas de processamento
- Mesclar documentos de várias páginas: primeiro, colete as DocTags de cada página em uma lista e, em seguida, use a função
Document.merge() - Personalização de estilo: ajuste de estilos de saída HTML modificando modelos CSS
- Conversão em lote: processamento em lote de pastas em conjunto com o módulo glob
Código de exemplo de conversão:doc = DoclingDocument(name="报告")
doc.load_from_doctags(doctags)
with open("output.md", "w") as f:
f.write(doc.export_to_markdown())
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO





























