Etapas básicas de instalação
Os principais pacotes Python podem ser instalados rapidamente usando a ferramenta pip:
pip install kreuzberg
Configuração de dependência do sistema
Para obter funcionalidade total, dois componentes principais adicionais precisam ser instalados:
- Tesseract OCRRecomenda-se a instalação da versão 5.3.0+ para obter os melhores resultados de OCR
- PandocVersão recomendada 2.19+ para garantir a compatibilidade da formatação do documento
Validação ambiental
Você pode verificar a configuração do ambiente com o seguinte código após a conclusão da instalação:
from kreuzberg import Kreuzberg extractor = Kreuzberg() print(extractor.check_dependencies())
Tratamento de problemas comuns
Problemas de configuração e soluções que podem ser encontrados:
- Faltam pacotes de idiomas de OCR: você precisa fazer o download de dados de treinamento adicionais para o idioma correspondente.
- Problemas de reconhecimento de caminho: certifique-se de que o PATH do sistema contenha o diretório de instalação dos componentes relevantes
- Privilégios insuficientes: podem ser necessários privilégios sudo para instalar dependências em sistemas Linux/macOS.
Essa resposta foi extraída do artigoKreuzberg: ferramenta de código aberto para extrair texto de qualquer documentoO































