Innovatives Design des DUPO-Algorithmus
WebAgent verwendet den ursprünglichen DUPO-Algorithmus (Dual-Phase Unified Optimization) für die Modelloptimierung, ein Rahmenwerk, das überwachtes Lernen und Verstärkungslernen in Stufen integriert. Die erste Phase ist eine überwachte Feinabstimmung mit 500.000 kommentierten Daten zum Aufbau der Basisfähigkeiten, während die zweite Phase Reinforcement Learning Based on Human Feedback (RLHF) mit 30.000 qualitativ hochwertigen Suchspuren zur Optimierung der Richtlinien einsetzt. Durch dieses zweiphasige Training kann das Modell eine Verbesserung der Generalisierungsfähigkeit um 42% bei unbekannten Aufgabentypen im BrowsingBench-Testsatz nachweisen.
Wichtige Neuerungen im Ausbildungsprozess
- Dynamisches Lernen im KursAdaptive Anpassung des Schwierigkeitsgrads der Aufgabe auf der Grundlage der Modellleistung
- Mehrdimensionale BelohnungsfunktionSimultane Optimierung der Indikatoren für Genauigkeit, Effizienz und Glaubwürdigkeit der Informationen
- Konfrontation MusterverbesserungSailorFog-QA: Verbesserung der Störfestigkeit durch den SailorFog-QA-Datensatz
Technische Realisierung Vorteile
Der Rahmen unterstützt verteiltes Training und kann die Trainingszeit von 72B Modellen innerhalb von 72 Stunden auf einem 512-Karten-GPU-Cluster kontrollieren. Die Auslastung der optimierten Modellparameter wird um 60% erhöht, wodurch komplexere domänenübergreifende Abfrageaufgaben mit denselben Rechenressourcen bewältigt werden können. Mehr als 200 Vorlagen für Tuning-Parameter, die von der Open-Source-Community zur Verfügung gestellt werden, senken die Schwelle für Entwickler zur Durchführung von Migrationslernen erheblich.
Diese Antwort stammt aus dem ArtikelWebAgent: Ein intelligentes Werkzeug zur Suche und Verarbeitung von WebinformationenDie





























