Solução: Aproveitamento da tecnologia de incorporação multimodal da ColPali
Embora os sistemas de recuperação tradicionais geralmente tratem o conteúdo gráfico de forma fragmentada, a tecnologia ColPali do Morphik Core permite a recuperação federada por meio das seguintes etapas:
- estágio de pré-tratamento: Uso
ingest_file()
Ao importar um arquivo, adicioneuse_colpali=True
o sistema analisa automaticamente os elementos visuais (diagramas/imagens) no documento com o texto descritivo correspondente para gerar o vetor de incorporação conjunta. - estágio de recuperação: Implementação
retrieve_chunks()
Ao fazer a consulta, o sistema corresponde aos recursos textuais, semânticos e visuais. Por exemplo, uma consulta para "Sales Trend Chart" (gráfico de tendências de vendas) corresponde à descrição textual e reconhece os recursos do gráfico de linhas. - Dicas de otimização1) Adicionar a documentos com uso intensivo de imagens
metadata={'content_type':'multimodal'}
Elevar a prioridade de processamento 2) Passark
Os parâmetros controlam o número de resultados retornados, equilibrando a precisão e a eficiência.
Os dados experimentais mostram que o método melhora a precisão da recuperação mista de gráficos e textos em 47%, e o tempo de resposta é controlado em 800 ms (tamanho do documento de um milhão de níveis).
Essa resposta foi extraída do artigoMorphik Core: uma plataforma RAG de código aberto para processamento de dados multimodaisO