Histórico
Os métodos tradicionais de geração aprimorada por recuperação (RAG) exigem a recuperação em tempo real de documentos externos, o que não é apenas caro do ponto de vista computacional, mas também afeta a capacidade de inferência do modelo devido às limitações de comprimento do contexto.
Soluções essenciais
A PRAG resolve o problema por meio dos seguintes projetos inovadores:
- Incorporação de conhecimento paramétricoCodificação de conhecimento externo diretamente no módulo de parâmetros do LoRA como uma alternativa à recuperação em tempo real
- Arquitetura de três estágios::
- O Data Enhancement Module converte documentos em dados de treinamento estruturados
- O módulo de treinamento de parâmetros gera uma representação vetorizada do documento
- Fusão dinâmica de vários parâmetros de documentos durante a inferência
Etapas de implementação
- Instalação de pesos de modelos pré-treinados (por exemplo, LLAMA-2)
- fazer uso de
psgs_w100.tsv.gze outros conjuntos de dados padrão para treinamento de parâmetros - Indexação de pesquisa pelo algoritmo BM25 (opcional)
Otimização dos efeitos
Testes empíricos mostram que esse método reduz a latência de inferência em 40% e melhora a precisão em 15-20% em conjuntos de dados de referência, como NQ e TriviaQA.
Essa resposta foi extraída do artigoPRAG: Parametric Retrieval Augmentation Generation Tool for Improving the Performance of Q&A Systems (Ferramenta de geração de aumento de recuperação paramétrica para melhorar o desempenho dos sistemas de perguntas e respostas)O































