Methodischer Vergleich
Während das herkömmliche überwachte Lernen eine große Menge an kommentierten Daten erfordert (sowohl Anmerkungen zur Werkzeugauswahl als auch Anmerkungen zu den Ausführungsbahnen), optimiert die RL-Lösung von ReCall die Strategie automatisch durch die Belohnung von Signalen und bietet drei wesentliche Vorteile:
- Verbesserung der Daten-EffizienzReduzierte Etikettierungskosten für 90% und höher
- Verbesserte Kapazität für ExplorationModelle können menschliche Optimierungspfade entdecken, die nicht markiert sind
- Dynamische AnpassungsfähigkeitEchtzeit-Anpassung an neue Tools und Szenarioänderungen
Technologische Umsetzung der Vorteile
Konkret:
1)Gestaffelte BelohnungDesign von Belohnungsfunktionen für die Auswahl von Werkzeugen, die Generierung von Parametern bzw. die Validierung von Ergebnissen
2)Mechanismen für das Lernen im Kurs: Schrittweiser Übergang von einfachen Aufgaben zu komplexen Toolsets
3)Offline-Online-HybridschulungKombination von historischen Daten und Echtzeit-Interaktionen zur Strategieoptimierung
Überprüfung der tatsächlichen Ergebnisse
In der FlashRAG-Evaluierung verbessert das RL-Schema im Vergleich zum überwachten Lernansatz die Erfolgsrate bei der Multi-Hop-Quiz-Aufgabe um 271 TP3T und reduziert die Fehlerrate beim Werkzeugaufruf um 421 TP3T, insbesondere bei unbekannten Werkzeugkombinationen.
Diese Antwort stammt aus dem ArtikelReCall: Training großer Modelle für die Inferenz von Werkzeugrufen durch VerstärkungslernenDie































