人間のフィードバック強化学習の閉ループを構築する
エイビライゼーションは3層のデータ収集システムを設計した:
- 積極的介入レベルユーザがコンソールを介してインテリジェントボディの決定(タスクの優先順位の再設定など)を直接変更し、システムは変更前後の状態の違いを比較サンプルとして記録する。
- 行動評価層インテリジェンスが複雑なタスクを完了した後、5段階の採点インターフェース(「完全に間違っている」から「理想的な解決策」まで)が起動し、ユーザーに改善のための特定のポイントをマークするよう求めます。
- 社会的合意水準複数のユーザーが同じような行動に対して同じような修正を加えると、システムは自動的にそのフィードバックの重みを増やし、グループ・インテリジェンスの蒸留を作り出す。
ベストプラクティス: 1) 介入時の変更を正当化するために「アノテーション機能」を使用する 2) プラットフォームのアノテーションへの参加を優先する価値の高いミッション・シナリオ(データ収集フラグが表示されているタスク) 3)提供したフィードバックがモデルの更新にどのように適用されたかを確認するために、コントリビューションカンバンボードを定期的にチェックする。
この答えは記事から得たものである。Aivilization:人間とAIの共存を探求する社会シミュレーション・サンドボックスについて































