Programa de extração eficiente para fórmulas acadêmicas
O módulo de reconhecimento de fórmulas baseado na tecnologia UniMERNet suporta três modos de operação:
- Modo de processamento em lote:Executar após colocar vários PDFs no mesmo diretório:
python pdf_extract.py -pdf . /arquivos_de_papel/ -formula-only - Saída LaTeX:Os resultados são armazenados automaticamente no formato LaTeX padrão e podem ser inseridos diretamente em editores como o Overleaf.
- Calibração visual:Adicione o parâmetro -render para gerar uma imagem renderizada e verifique os resultados do reconhecimento com outputs/Formula_Render/.
Técnicas avançadas:Quando são encontradas fórmulas complexas, elas podem ser ajustadas em configs/formula.yaml:
Resolução: 600dpi # Qualidade de imagem de entrada aprimorada
confidence_threshold: 0,85 Filtragem # para identificação de baixa qualidade
Essa resposta foi extraída do artigoPDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código abertoO































