方法論的比較
従来の教師あり学習が大量のアノテーションデータ(ツール選択アノテーションと実行軌跡アノテーションの両方)を必要とするのに対し、ReCallのRLソリューションは自動的にシグナルに報酬を与えることで戦略を最適化し、3つの核となる利点がある:
- データ効率の改善90%以上のラベリングコストの削減
- 探査能力の向上モデルは人間のラベルのない最適化経路を発見できる
- 動的適応能力新しいツールやシナリオの変更にリアルタイムで対応
優位性の技術的実現
具体的には
1)段階的報酬デザインツール選択、パラメータ生成、結果検証のための報酬関数設計
2)コース学習のメカニズム単純作業から複雑なツールセットへの段階的移行
3)オフライン-オンライン・ハイブリッド・トレーニング過去のデータとリアルタイムのインタラクションを組み合わせて戦略を最適化
実績の検証
FlashRAGの評価では、教師あり学習アプローチと比較して、RLスキームはマルチホップクイズタスクの成功率を271 TP3T向上させ、特に未知のツールの組み合わせを扱った場合のツール呼び出しエラー率を421 TP3T減少させた。
この答えは記事から得たものである。ReCall: 強化学習による道具の呼びかけ推論のための大規模モデルの学習について































