Os dados de treinamento do modelo contêm mais de 2 milhões de amostras de documentos multilíngues, com suporte especialmente aprimorado para 39 idiomas de poucos recursos, como tibetano e suaíli. Com técnicas de aprendizado migratório entre idiomas e treinamento contraditório, sem depender de dados de anotação adicionais, sua precisão de reconhecimento de idiomas pequenos é aprimorada em uma média de 47% em comparação com os sistemas de OCR convencionais. Os testes mostram que o sistema pode reconhecer corretamente a estrutura tipográfica e o conteúdo de scripts não latinos, mesmo que o usuário forneça apenas palavras-chave em inglês, o que é de grande valor para o processamento de documentos comerciais internacionais e arquivos multilíngues.
Essa resposta foi extraída do artigodots.ocr: um modelo visual-linguístico unificado para análise de layout de documentos multilínguesO