Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Ein Optimierungsrahmen für Reinforcement Learning für WebAgent verbessert signifikant die Generalisierungsfähigkeit von Modellaufgaben

2025-08-22 634
Link direktMobile Ansicht
qrcode

Innovatives Design des DUPO-Algorithmus

WebAgent verwendet den ursprünglichen DUPO-Algorithmus (Dual-Phase Unified Optimization) für die Modelloptimierung, ein Rahmenwerk, das überwachtes Lernen und Verstärkungslernen in Stufen integriert. Die erste Phase ist eine überwachte Feinabstimmung mit 500.000 kommentierten Daten zum Aufbau der Basisfähigkeiten, während die zweite Phase Reinforcement Learning Based on Human Feedback (RLHF) mit 30.000 qualitativ hochwertigen Suchspuren zur Optimierung der Richtlinien einsetzt. Durch dieses zweiphasige Training kann das Modell eine Verbesserung der Generalisierungsfähigkeit um 42% bei unbekannten Aufgabentypen im BrowsingBench-Testsatz nachweisen.

Wichtige Neuerungen im Ausbildungsprozess

  • Dynamisches Lernen im KursAdaptive Anpassung des Schwierigkeitsgrads der Aufgabe auf der Grundlage der Modellleistung
  • Mehrdimensionale BelohnungsfunktionSimultane Optimierung der Indikatoren für Genauigkeit, Effizienz und Glaubwürdigkeit der Informationen
  • Konfrontation MusterverbesserungSailorFog-QA: Verbesserung der Störfestigkeit durch den SailorFog-QA-Datensatz

Technische Realisierung Vorteile

Der Rahmen unterstützt verteiltes Training und kann die Trainingszeit von 72B Modellen innerhalb von 72 Stunden auf einem 512-Karten-GPU-Cluster kontrollieren. Die Auslastung der optimierten Modellparameter wird um 60% erhöht, wodurch komplexere domänenübergreifende Abfrageaufgaben mit denselben Rechenressourcen bewältigt werden können. Mehr als 200 Vorlagen für Tuning-Parameter, die von der Open-Source-Community zur Verfügung gestellt werden, senken die Schwelle für Entwickler zur Durchführung von Migrationslernen erheblich.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch