Visão geral do suporte a idiomas
Os recursos de processamento multilíngue do Kreuzberg dependem principalmente dos seguintes componentes:
- Tesseract OCRSuporta reconhecimento de texto em mais de 100 idiomas
- PandocPossui recursos fundamentais de processamento de codificação Unicode
Principais etapas de configuração
Considerações importantes para garantir o processamento multilíngue correto:
- Instale o pacote de dados de treinamento OCR para o idioma correspondente.
- Especifique explicitamente o idioma do documento durante a inicialização:
extractor = Kreuzberg(ocr_lang='jpn+eng')
- Ativar o modo de detecção automática ao processar documentos multilíngues
Tratamento de caracteres especiais
Recomendações de otimização para scripts não latinos:
- Para documentos em chinês, japonês e coreano, recomenda-se usar o Tesseract versão 5 ou superior.
- Os idiomas escritos da direita para a esquerda, como o árabe e o hebraico, exigem a ativação de uma análise de layout específica.
- Para conjuntos de caracteres raros, podem ser necessários dados de treinamento personalizados.
Dicas de otimização de desempenho
Métodos para melhorar a eficiência do processamento multilíngue:
- Restringir a gama de idiomas possíveis reduz o tempo de reconhecimento.
- Pré-classificar documentos em lote por idioma
- Considere usar a versão acelerada por GPU do Tesseract.
Essa resposta foi extraída do artigoKreuzberg: ferramenta de código aberto para extrair texto de qualquer documentoO































