Requisitos do cenário
As empresas ou os desenvolvedores geralmente precisam processar em lote vários formatos no ambiente local (PDF/Word/PPT, etc.) da extração automatizada de texto, garantindo a segurança dos dados.
Soluções para Kreuzberg
- Suporte a vários formatosMais de 20 formatos de documentos (incluindo .docx/.pptx, etc.) suportados pela integração com o Pandoc
- localizaçãoTodos os processamentos são feitos localmente e não dependem de serviços em nuvem
- linha de montagem automáticaOs scripts podem ser gravados para processar em lote todos os documentos em uma pasta.
Etapas de implementação
- Instale os componentes necessários:
- Kreuzberg:
pip install kreuzberg - Pandoc: faça o download do pacote de instalação correspondente de acordo com o sistema
- Kreuzberg:
- Criar scripts em lote:
from kreuzberg import Kreuzberg import os extractor = Kreuzberg() for file in os.listdir('docs_folder'): text = extractor.extract_text(f'docs_folder/{file}') with open(f'output/{file}.txt', 'w') as f: f.write(text) - Configuração de tarefas programadas ou acionadores para automação total
Recomendações de otimização
- Criar filas de processamento para diferentes formatos
- Adicionar um mecanismo de tratamento de exceções para documentar falhas
- Considere o multi-threading para um grande número de arquivos pequenos
Essa resposta foi extraída do artigoKreuzberg: ferramenta de código aberto para extrair texto de qualquer documentoO































