A abordagem a seguir é recomendada para as necessidades especiais de formatação de trabalhos acadêmicos:
- A prioridade é dada à versão mais recente do Docstrange (disponível no GitHub), que aprimora os algoritmos de reconhecimento de parágrafos para documentos acadêmicos.
- Ativar o modo aprimorado durante a conversão:
docstrange paper.pdf --output markdown --enhanced-mode - Para documentos que contêm fórmulas matemáticas, você pode usar primeiro o
extract_text()Obter o texto bruto e, em seguida, processar a fórmula com uma expressão regular - Técnicas de manuseio de referências:
result.extract_data(specified_fields=["references"]) - Conversão em lote de bibliotecas de teses inteiras:
docstrange papers/*.pdf --output markdown --output-dir ./markdown_files
O método foi testado para obter uma precisão de reconhecimento de mais de 92% para os principais formatos de periódicos, como IEEE/Springer.
Essa resposta foi extraída do artigoDocstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatosO




























