Datenverarbeitung Full Flow
Das Datenanreicherungsmodul von PRAG verwendet eine zweistufige Verarbeitungsstrategie:
Vorverstärkungsmodus
- Bietet sofort einsatzbereite
data_aug.tar.gzkomprimiertes Paket - Enthält vorverarbeitete Ergebnisse aus großen Wissensdatenbanken wie Wikipedia
- Entpacken, um BM25-Index und Absatzeinbettung zu erhalten
Benutzerdefinierte Verarbeitungsmodi
- Erfassung von RohdatenUnterstützt den automatischen Download von Wikipedia-Dumps
- AbsatzunterbrechungSlicing: Dokumente nach semantischen Einheiten aufteilen
- VektorisierungGenerierung von Einbettungen, die für eine dichte Suche erforderlich sind
Wichtigste technische Merkmale
- Doppeltes IndexierungssystemDPR: Verwaltet sowohl spärliche (BM25) als auch dichte (DPR) Indizes
- RauschfilterAutomatisches Entfernen von minderwertigen Textschnipseln
- negative StichprobenstrategieSchwierige Negativbeispiele zur Verbesserung der Ausbildung nutzen
Es wird empfohlen, dass Benutzer, die zum ersten Mal mit diesen Daten arbeiten, mit vorbereiteten Daten beginnen und die benutzerdefinierte Verarbeitung ausprobieren, sobald sie sich mit dem Prozess vertraut gemacht haben.
Diese Antwort stammt aus dem ArtikelPRAG: Parametric Retrieval Augmentation Generation Tool zur Verbesserung der Leistung von Q&A SystemenDie




























