O Deep Recall emprega uma arquitetura modular de três camadas, com cada componente trabalhando em conjunto:
- camada de serviço de memória::
- Componentes principais: Bancos de dados vetoriais (como FAISS/Pinecone)
- Função: Armazenamento e recuperação de memórias vetorizadas das interações do usuário, suportando consultas de similaridade e análise de associação espaço-temporal.
- Camada de serviço de inferência::
- Componente principal: mecanismo de inferência de modelo acelerado por GPU
- Funcionalidade: Realiza a geração de LLM integrando dados contextuais recuperados, suportando o carregamento dinâmico de modelos de escalas variadas (parâmetros 7B/70B).
- camada de coordenação::
- Componente principal: Controlador de dimensionamento automático
- Função: Monitoramento de carga em tempo real com programação elástica de recursos (por exemplo, dimensionamento automático de instâncias de GPU durante picos de tráfego)
As três camadas se comunicam de forma eficiente por meio do gRPC, com o coordenador empregando um algoritmo de consenso para garantir a consistência distribuída — uma tecnologia fundamental que sustenta sua confiabilidade de nível empresarial.
Essa resposta foi extraída do artigoDeep Recall: uma ferramenta de código aberto que fornece uma estrutura de memória de nível empresarial para modelos grandesO































