O sistema gera três tipos de saídas padronizadas para cada análise: arquivos JSON em conformidade com a ISO com registros completos de coordenadas, tipos e conteúdo de todos os elementos; documentos Markdown otimizados para ordem de leitura, mantendo a lógica de layout original; e diagramas de anotação visual distinguindo categorias de elementos com cores diferentes. A saída JSON adota a tecnologia de armazenamento de compactação de blocos, que reduz o volume de índice de um documento de um milhão de páginas em 70%. Os usuários podem optar por ativar o modo nohf para filtrar automaticamente o cabeçalho e o rodapé e outras informações auxiliares, ou por meio do parâmetro bbox para obter uma extração precisa da área especificada, para atender às necessidades diversificadas do gerenciamento digital de documentos.
Essa resposta foi extraída do artigodots.ocr: um modelo visual-linguístico unificado para análise de layout de documentos multilínguesO