O dots.ocr tem uma solução especializada para o problema de confundir a ordem de leitura de documentos em idiomas mistos ou em idiomas não latinos:
- Algoritmo de classificação inteligenteO modelo tem uma função integrada de otimização da ordem de leitura que organiza automaticamente os blocos de texto de acordo com os hábitos de leitura humanos.
- Formato de saída unificado (UOF)Geração de dados estruturados JSON padronizados contendo informações hierárquicas e de posição do elemento
- adaptação do idiomaLógica de análise: ajusta automaticamente a lógica de análise para orientações de escrita em diferentes idiomas (por exemplo, árabe da direita para a esquerda)
- Depuração visualSaída de imagens de caixas delimitadoras numeradas para verificação visual da ordem correta de leitura.
Recomenda-se usar o prompt prompt_layout_all_en para obter os resultados completos da análise de layout.
Essa resposta foi extraída do artigodots.ocr: um modelo visual-linguístico unificado para análise de layout de documentos multilínguesO