Manual de conversão de PDF
O MarkPDFDown oferece uma variedade de métodos flexíveis de conversão de documentos, que podem ser selecionados de acordo com os requisitos de diferentes cenários:
Modo de conversão básico
- Conversão completa de documentos::
python main.py < input.pdf > output.mdConverter PDF inteiro em Markdown - Especificar transições de página::
python main.py 2 5 < input.pdf > output.mdConversão somente das páginas 2-5
Programa de Aplicativos Avançados
- arquivo de lote::
Use um script de shell para percorrer todos os arquivos PDF no diretório:for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done - O jeito Docker::
Evite a configuração do ambiente local:docker run -i -e OPENAI_API_KEY=your_key jorben/markpdfdown < input.pdf > output.md
Ajuste dos resultados de saída
O arquivo Markdown convertido manterá o documento original:
- Nível do título (obtido por meio da marcação #)
- Liste os itens (use - ou marcadores de números)
- Tabelas (convertidas para a sintaxe de tabela do Markdown)
Os usuários podem otimizar a conversão editando a lógica de processamento no main.py.
Essa resposta foi extraída do artigoMarkPDFDown: converte PDF em Markdown com base em um modelo multimodalO































