Processamento em lote de documentos de exames educacionais
Os processos padronizados a seguir são recomendados para as necessidades de digitalização de documentos escolares:
- entrada de lote::
- estabelecer
input_exams/Catálogo para armazenar PDF/imagens - fazer uso de
--input_dir input_exams/ --batch_size 10parâmetros
- estabelecer
- Configuração do módulo::
- Pergunta de matemática:
--mode math --latex_version amsmath - Gráficos experimentais:
--mode figure --figure_detail high - Chave de respostas:
--mode table --table_type answer_sheet
- Pergunta de matemática:
- gerenciamento de resultados::
- aumentar
--output_dir by_subject/ --file_prefix 2024midterm_ - começar a usar
--compress gzipEspaço de armazenamento reduzido
- aumentar
Exemplo prático: uma escola de ensino médio processou 300 questões de biologia por meio doparallel --jobs 4 python ocr_stage1.pyFoi possível realizar o processamento paralelo de 4 processos, reduzindo o tempo de 8 horas para 2,5 horas.
Essa resposta foi extraída do artigoVOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticasO
































