Soluções baseadas em incorporação visual
A tecnologia tradicional de OCR exige que o conteúdo do documento seja convertido em texto e é propenso à perda de informações ao lidar com formatos complexos:
- Tecnologia de incorporação visual: codifica os recursos visuais do documento diretamente, ignorando completamente o OCR
- Retenção de formato completoSuporta mais de 100 formatos de arquivo para armazenamento bruto, incluindo PDF/DOCX/PPTX, etc.
- pesquisa multimodalIndexação de relações por meio das dimensões duplas de conteúdo e recursos visuais
Etapas operacionais específicas:
- Instale o Python SDK:
pip install colivara-py - Não é necessário nenhum pré-processamento ao fazer upload de documentos: use
upsert_documentUpload direto do arquivo original - Correspondência automática de recursos visuais durante a recuperação: por
search()para obter um resultado que contenha o formato completo
Essa resposta foi extraída do artigoColiVara: serviço de armazenamento e recuperação de documentos baseado em incorporação visualO































