prescrição
Ao lidar com a composição complexa de documentos PDF, pode haver extração incompleta de texto. Aqui estão três soluções passo a passo:
- Programa de conversão de pré-processamento::
- Use o Adobe Acrobat ou ferramentas on-line (como o Smallpdf) para converter PDF para o formato .txt
- Verifique a integridade do texto convertido e corrija-o manualmente, se necessário
- Importação de arquivos TXT processados diretamente na Abogen
- Programa editor incorporado::
- Clique no botão "Built-in Text Editor" (Editor de texto integrado) na tela da Abogen.
- Copie o conteúdo principal do PDF para o editor
- Use a função de limpeza de formato do editor (para remover símbolos especiais e códigos distorcidos)
- Programa técnico::
- Instalação de ferramentas pdf2text (por exemplo, pdftotext para Linux)
- Pré-processamento por meio da linha de comando:
pdftotext -layout input.pdf output.txt - aumentar
-enc UTF-8Parâmetros para garantir a codificação correta
Conselho preventivo: Ao produzir o PDF, dê prioridade ao texto editável (não digitalizado) e evite o layout colunar complexo. Após o processamento, é recomendável verificar se o conteúdo do primeiro 1 minuto de áudio está completo por meio da função de visualização.
Essa resposta foi extraída do artigoAbogen: uma ferramenta para converter vários formatos de texto em audiolivrosO































