Quais são as considerações da Kreuzberg ao trabalhar com documentos multilíngues?

2025-09-09

1.7 K

Link diretoVisualização móvel

Visão geral do suporte a idiomas

Os recursos de processamento multilíngue do Kreuzberg dependem principalmente dos seguintes componentes:

Considerações importantes para garantir o processamento multilíngue correto:

Instale o pacote de dados de treinamento OCR para o idioma correspondente.
Especifique explicitamente o idioma do documento durante a inicialização:
```
extractor = Kreuzberg(ocr_lang='jpn+eng')
```
Ativar o modo de detecção automática ao processar documentos multilíngues

Recomendações de otimização para scripts não latinos:

Para documentos em chinês, japonês e coreano, recomenda-se usar o Tesseract versão 5 ou superior.
Os idiomas escritos da direita para a esquerda, como o árabe e o hebraico, exigem a ativação de uma análise de layout específica.
Para conjuntos de caracteres raros, podem ser necessários dados de treinamento personalizados.

Métodos para melhorar a eficiência do processamento multilíngue: