Programa de Aplicações de Pesquisa Acadêmica
Os pesquisadores podem aplicar o RolmOCR em profundidade das seguintes maneiras:
- Digitalização de livros de antiquárioEm conjunto com o processamento automático do scanner de documentos antigos, recomenda-se que o parâmetro -preserve-line-breaks (preservar quebras de linha) seja definido para manter o formato do texto original. Um projeto universitário usou essa ferramenta para concluir a transcrição de 2.000 páginas de arquivos da República da China em uma quinzena.
- Gerenciamento de notas de laboratórioCriar um sistema de imputação automatizado para converter registros experimentais escritos à mão em texto pesquisável. Trabalhe com expressões regulares para extrair dados importantes (por exemplo, "pH=7,4″) com uma taxa de precisão de 91%
- Manuseio de referênciasDesenvolvimento de um pipeline de análise de tese para obter: digitalização de documentos → extração de texto → divisão automática de referências → importação para o Zotero. Testes de comparação mostram que, em comparação com as ferramentas tradicionais de OCR, a taxa de erro do reconhecimento do campo do documento é reduzida em 42%
- multilinguismoHabilite o parâmetro -language-mix para manter uma precisão de reconhecimento bilíngue de mais de 95% para documentos mistos em chinês e inglês.
O serviço de implantação de contêineres do Docker é recomendado para usuários acadêmicos para facilitar a integração com ambientes de pesquisa, como o Jupyter Notebook.
Essa resposta foi extraída do artigoRolmOCR: modelo de OCR de documentos para reconhecimento de caracteres manuscritos e inclinadosO