Histórico da questão
Os PDFs digitalizados geralmente apresentam baixa qualidade de imagem, o que leva a erros de reconhecimento de OCR, afetando o efeito da extração de dados.
prescrição
- Como ativar a configuração avançada de OCRIdioma do documento: selecione o idioma do documento correspondente na opção de análise (suporta vários idiomas, como chinês/inglês)
- Qualidade da imagem pré-processadaRecomendamos que as digitalizações sejam definidas com uma resolução de 300 dpi ou superior para garantir que o texto fique nítido.
- Uso de instruções de análise específicasIndicação de áreas de foco por meio de dicas de linguagem natural
"优先识别文档第二页的表格内容,忽略页眉页脚"
- Parâmetros de análise personalizadosAjuste dos limites de contraste e brilho para um reconhecimento aprimorado
- Validação pós-processamentoDefinição de regras de verificação para campos-chave e sinalização automática de resultados de reconhecimento de baixa confiança.
melhores práticas
Recomenda-se usar a interface do usuário da Web para testar o documento de página única primeiro para determinar os parâmetros ideais antes do processamento em lote. Ao encontrar fontes especiais, você pode carregar amostras para o ajuste fino do modelo.
Essa resposta foi extraída do artigoLlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).O