O PDF Craft rompe as limitações de uma única conversão de texto para obter uma saída Markdown multimodal que inclui layout gráfico, retenção de tabelas e estrutura de capítulos. Seu módulo de processamento de imagens usa a tecnologia de segmentação de limiar adaptável para identificar de forma inteligente os elementos gráficos em documentos digitalizados, manter as capturas de tela da resolução original e gerar automaticamente o código Markdown incorporado. Na prática, para livros profissionais com 200 ilustrações técnicas, o sistema pode manter a precisão das referências de imagem acima de 95% e gerar automaticamente descrições de texto alternativo. A funcionalidade estendida oferece suporte à saída do formato de e-book padrão EPUB e, por meio do mecanismo de transcodificação pandoc, é possível obter retenção de fonte, geração de índice e outros recursos de nível de publicação, de modo que os usuários individuais também possam produzir documentos digitais para atender aos padrões de e-books comerciais.
Essa resposta foi extraída do artigoPDF Craft: documentos digitalizados em PDF para ferramentas de código aberto MarkdownO































