Programa de proteção completo para identificação de formulários complexos
As seguintes estratégias defensivas são recomendadas para formulários sem metadados:
- defesa de pré-processamento::
- Extração de quadros de formulários com Tabula
- Adição de marcadores visuais de limite às células
- Converter PDF em bitmap HD (600dpi)
- aprimoramento do reconhecimento::
- abre
table_detection_mode
parâmetros - Reconhecimento progressivo com prioridade de linha e coluna
- Tratamento especial de células mescladas
- abre
- mecanismo de verificação::
- Desenvolvimento de um verificador de alinhamento automático
- Implementação de comparações de identificação secundária
- Revisão manual dos principais dados
Juntamente com essas medidas, a integridade do reconhecimento de formulários pode ser aumentada para mais de 95%
Essa resposta foi extraída do artigoRolmOCR: modelo de OCR de documentos para reconhecimento de caracteres manuscritos e inclinadosO