PRAG (Parametric Retrieval-Augmented Generation) ist ein innovatives Retrieval-Augmented Generation Tool, das die Generierung durch die Einbettung von externem Wissen direkt in den Parameterraum eines Large Language Model (LLM) verbessert. Das Tool überwindet die Beschränkungen traditioneller kontextbezogener Retrieval-Augmented Generation-Methoden, reduziert den Rechenaufwand und verbessert die Argumentations- und Synthesefähigkeiten des Modells durch die tiefgreifende Integration externen Wissens.PRAG bietet End-to-End-Implementierungen einschließlich eines Datenanreicherungsmoduls, eines Parameter-Trainingsmoduls und eines Inferenzmoduls für Leistungstests verschiedener Quiz-Datensätze.

Funktionsliste
- Modul DatenanreicherungUmwandlung von Dokumenten in mit Daten angereicherte Datensätze.
- Modul ParameterschulungTrainieren Sie zusätzliche LoRA-Parameter, um eine parametrisierte Darstellung des Dokuments zu erzeugen.
- Inferenz-ModulZusammenführen von parametrisierten Darstellungen verwandter Dokumente und Einfügen in das LLM zur Inferenz.
- Umgebung InstallationEnthält detaillierte Schritte zur Installation der Umgebung und Abhängigkeiten.
- SelbstverbesserungUnterstützung der direkten Verwendung von vorverbesserten Datendateien oder selbstverarbeiteten Datenverbesserungen.
- Vorbereitung der SucheHerunterladen und Aufbereiten von Wikipedia-Datensätzen für den Abruf.
Hilfe verwenden
Umgebung Installation
- Erstellen und aktivieren Sie eine virtuelle Umgebung:
   conda create -n prag python=3.10.4
conda activate prag
- Installieren Sie die erforderlichen Abhängigkeiten:
   pip install torch==2.1.0
pip install -r requirements.txt
- Änderungen src/root_dir_path.pyden Nagel auf den Kopf treffenROOT_DIRist die Adresse des Ordners, in dem das PRAG gespeichert ist.
Datenerweiterung
- Verwenden Sie vorbereitete Datendateien:
   tar -xzvf data_aug.tar.gz
- Selbstverarbeitende Datenanreicherung:
- Laden Sie den Wikipedia-Datensatz herunter: bash
 mkdir -p data/dpr
 wget -O data/dpr/psgs_w100.tsv.gz https://dl.fbaipublicfiles.com/dpr/wikipedia_split/psgs_w100.tsv.gz
 
- beabsichtigen BM25 Zurückgeholt: bash
 # 具体步骤请参考项目文档
 
 
- Laden Sie den Wikipedia-Datensatz herunter: 
parametrisches Training
- Erzeugen Sie eine parametrisierte Darstellung des Dokuments:
   # 具体步骤请参考项目文档
Inferenz
- Parametrisierte Darstellungen verwandter Dokumente werden zusammengeführt und zur Inferenz in das LLM eingefügt:
   # 具体步骤请参考项目文档






























 Deutsch
Deutsch				 简体中文
简体中文					           English
English					           日本語
日本語					           Português do Brasil
Português do Brasil