O PRAG (Parametric Retrieval-Augmented Generation) é uma ferramenta inovadora de geração aumentada por recuperação, projetada para aprimorar a geração por meio da incorporação de conhecimento externo diretamente no espaço de parâmetros de um modelo de linguagem grande (LLM). A ferramenta supera as limitações dos métodos tradicionais de geração aumentada por recuperação contextual, reduz as despesas gerais de computação e aprimora os recursos de raciocínio e síntese do modelo, integrando profundamente o conhecimento externo. O PRAG oferece implementações completas, incluindo um módulo de aprimoramento de dados, um módulo de treinamento de parâmetros e um módulo de inferência para testes de desempenho de vários conjuntos de dados de questionários.

Lista de funções
- Módulo de aprimoramento de dadosConverta documentos em conjuntos de dados aprimorados com dados.
- Módulo de treinamento de parâmetrosTreinamento de parâmetros LoRA adicionais para gerar uma representação parametrizada do documento.
- módulo de inferênciaFusão de representações parametrizadas de documentos relacionados e sua inserção no LLM para inferência.
- Instalação do ambienteInformações sobre o ambiente: Fornece etapas e dependências detalhadas da instalação do ambiente.
- autoaperfeiçoamentoSuporte ao uso direto de arquivos de dados pré-aprimorados ou aprimoramentos de dados autoprocessados.
- Preparação da pesquisaDownload e preparação de conjuntos de dados da Wikipédia para recuperação.
Usando a Ajuda
Instalação do ambiente
- Criar e ativar um ambiente virtual:
   conda create -n prag python=3.10.4
conda activate prag
- Instale as dependências necessárias:
   pip install torch==2.1.0
pip install -r requirements.txt
- modificações src/root_dir_path.pyacertou em cheioROOT_DIRé o endereço da pasta em que o PRAG está armazenado.
Aprimoramento de dados
- Use arquivos de dados pré-aprimorados:
   tar -xzvf data_aug.tar.gz
- Aprimoramento de dados de autoprocessamento:
- Faça o download do conjunto de dados da Wikipédia: bash
 mkdir -p data/dpr
 wget -O data/dpr/psgs_w100.tsv.gz https://dl.fbaipublicfiles.com/dpr/wikipedia_split/psgs_w100.tsv.gz
 
- pretender BM25 Recuperado: bash
 # 具体步骤请参考项目文档
 
 
- Faça o download do conjunto de dados da Wikipédia: 
treinamento paramétrico
- Gerar uma representação parametrizada do documento:
   # 具体步骤请参考项目文档
inferência
- As representações parametrizadas de documentos relacionados são mescladas e inseridas no LLM para inferência:
   # 具体步骤请参考项目文档






























 Português do Brasil
Português do Brasil				 简体中文
简体中文					           English
English					           日本語
日本語					           Deutsch
Deutsch