Um dos principais objetivos do projeto do RolmOCR é romper com as limitações de formato do OCR tradicional. A gama de processamento que ele suporta inclui:
- Documentos digitalizados padrão (PDF/PNG/JPG e outros formatos comuns)
- Documentos de filmagem fora do padrão com inclinação de 15 graus ou menos
- Anotações manuscritas (conteúdo misto em chinês e inglês)
- Layout simples de formulários PDF sem metadados
A implementação técnica atinge esse objetivo por meio de duas inovações: o uso de um modelo de linguagem visual em vez de um modelo puramente visual para aprimorar a compreensão contextual; e os dados de treinamento contêm 201 TP3T de amostras de manuscrito e 151 TP3T de amostras de rotação. Os dados de teste mostram:
- Precisão de reconhecimento do corpo da impressão de 98,7%
- Precisão de reconhecimento de escrita manual de 92,31 TP3T (111 TP3T de melhoria em relação ao antecessor)
- O reconhecimento correto de documentos distorcidos excede 95%
Esse recurso oferece uma vantagem exclusiva em cenários como a digitalização de literatura acadêmica e o processamento de arquivos corporativos.
Essa resposta foi extraída do artigoRolmOCR: modelo de OCR de documentos para reconhecimento de caracteres manuscritos e inclinadosO