Técnicas básicas para otimização do desempenho
O PRAG alcança melhorias de velocidade de ordens de magnitude por meio das seguintes inovações:
- Mecanismo de cache de parâmetrosRepresentação do documento pré-computada e armazenada em cache na memória
- Algoritmo de fusão dinâmica: ativa apenas o parâmetro LoRA do conhecimento relevante
- Otimização de lotesFusão de conhecimento para dar suporte ao processamento paralelo de várias consultas
Comparação do desempenho medido
| norma | RAG tradicional | PRAG |
|---|---|---|
| Atraso em uma única consulta | 350ms | 210ms |
| espaço de memória | 8 GB | 5 GB |
| rendimento | 15QPS | 28QPS |
Cenários sugeridos
- Aplicativos sensíveis à latênciaSistema de atendimento ao cliente, perguntas e respostas em tempo real
- ambiente com recursos limitadosDispositivos de borda, terminais móveis
- Serviço de consulta de alta frequência: API da base de conhecimento, sistema de auxílio ao ensino
Observe que essa otimização tem o custo da pré-computação e é mais adequada para cenários em que a base de conhecimento é relativamente estável.
Essa resposta foi extraída do artigoPRAG: Parametric Retrieval Augmentation Generation Tool for Improving the Performance of Q&A Systems (Ferramenta de geração de aumento de recuperação paramétrica para melhorar o desempenho dos sistemas de perguntas e respostas)O































