O Morphik Core permite a recuperação multimodal por meio da inovadora tecnologia ColPali, que consiste em três processos principais:
- Geração de incorporação conjuntaPara documentos carregados, como PDFs/vídeos, o sistema processa o conteúdo textual e os elementos visuais em paralelo para gerar vetores de incorporação semântica uniformes.
- associação intermodalEstabelecimento automático de associações semânticas entre descrições de texto e conteúdo de imagem. Por exemplo, o "Gráfico de receita trimestral" em um relatório é mapeado para sua visualização de dados correspondente.
- estratégia de pesquisa híbridaA consulta é feita por meio do
use_colpali=True
Recuperação multimodal ativada por parâmetros, considerada sistematicamente de forma simultânea:
1. correspondência semântica de texto
2. relevância do conteúdo visual
3. relações derivadas do mapa de conhecimento
Exemplos típicos de aplicativos::
Quando um pesquisador procura um artigo, ele digita "find comparative charts on neural network architectures" (encontrar gráficos comparativos sobre arquiteturas de redes neurais) e o sistema retorna ambos:
- Páginas contendo diagramas de arquitetura
- Parágrafos relevantes da declaração doutrinária
- Dados experimentais comparativos citados
Os testes mostraram que essa técnica melhora a precisão da recuperação multimodal em 671 TP3T, o que a torna particularmente adequada para a análise de documentos técnicos que contêm diagramas complexos.
Essa resposta foi extraída do artigoMorphik Core: uma plataforma RAG de código aberto para processamento de dados multimodaisO