Aufbau eines geschlossenen Kreislaufs für Verstärkungslernen mit menschlichem Feedback
Aivilization hat ein dreistufiges Datenerfassungssystem entwickelt:
- aktive InterventionsebeneDer Benutzer ändert die Entscheidung des intelligenten Organs (z. B. Zurücksetzen der Aufgabenpriorität) direkt über die Konsole, und das System zeichnet den Unterschied im Zustand vor und nach der Änderung als Vergleichsbeispiel auf.
- Ebene der VerhaltensbewertungDie Software löst eine 5-stufige Bewertungsoberfläche aus (von "völlig falsch" bis "ideale Lösung"), nachdem die Intelligenz eine komplexe Aufgabe erledigt hat, und fordert den Benutzer auf, bestimmte Punkte für Verbesserungen zu markieren.
- gesellschaftliche KonsensebeneWenn mehrere Nutzer ähnliche Korrekturen an ähnlichen Verhaltensweisen vornehmen, erhöht das System automatisch das Gewicht dieses Feedbacks und schafft so eine Destillation der Gruppenintelligenz.
Bewährte Praktiken: 1) Nutzen Sie die "Anmerkungsfunktion", um Änderungen zum Zeitpunkt der Intervention zu begründen. 2) Priorisieren Sie die Teilnahme an den Anmerkungen der Plattform.Hochwertige Einsatzszenarien(Aufgaben mit Datenerfassungskennzeichen) 3) Überprüfen Sie regelmäßig die Kanban-Tafel für Beiträge, um zu sehen, wie das von Ihnen gegebene Feedback in die Modellaktualisierungen eingeflossen ist.
Diese Antwort stammt aus dem ArtikelAivilization: eine soziale Simulationssandbox zur Erforschung der Koexistenz von Menschen und KIsDie































