コア評価指標
- 知識ヒット率モデルによって正しく呼び出された知識ベースの割合(理想的には>85%)
- 不合格精度知識ベースの範囲外の質問を正しく拒否する能力
- 応答精度事実誤認率がベースモデルより減少
評価方法
- オフィシャルの使用
evaluate.py
スクリプトテスト プリセット問題セット - 幻覚抑制をテストするための敵対的問題の構築
- とおす
experiments/
以下の比較スクリプトは、論文の実験結果を再現している。
パフォーマンス最適化の提案
指標が十分でない場合に利用できる:知識を埋め込む強度を調整する(-alphaパラメータ)、拡張トレーニングデータ(Azure OpenAIを使用して生成された合成データ)、知識構造の最適化(エンティティ間の関係のラベル付けを追加)。評価は、基礎となるモデリング能力の影響を分離すべきであることに留意する。
この答えは記事から得たものである。KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツールについて