A ferramenta usa um algoritmo de vários estágios para determinar a ordem de leitura:
- Classificação elementarAnálise da ordem de fluxo do documento subjacente com base na biblioteca Poppler
- Estratificação de tipos::
- Os elementos do cabeçalho são priorizados (mantendo a ordem interna original)
- O conteúdo principal (texto/tabelas, etc.) é reordenado de acordo com os hábitos de leitura visual
- Publicação obrigatória de rodapés e notas de rodapé
- correção visualPara elementos que não sejam de texto (por exemplo, imagens), a posição é determinada pela associação do elemento de texto mais próximo a ele.
Otimização de tecnologiaSolução de problemas comuns em PDFs, como layout de várias colunas e objetos flutuantes, por meio da análise de grade visual (recurso principal do VGT). Para documentos digitalizados, a análise secundária do layout é realizada após a conclusão do OCR para aumentar a precisão sequencial.
Conselhos práticosSe forem encontradas anomalias na ordem, a interface /visualize poderá ser usada para gerar PDFs anotados para calibração manual ou para ajustar os parâmetros do modelo para reanálise.
Essa resposta foi extraída do artigoAnalise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código abertoO































