GraphGenは体系的なソリューションを提供する:
- ナレッジグラフ構築テキストからエンティティや関係性を抽出することで、きめ細かな知識グラフを構築し、データ生成のための構造化された知識ベースを提供する。技術的な詳細は、生のテキストを自動的に処理するために、エンティティ認識と関係抽出ツールを使用する。
- 死角認識メカニズム予想校正誤差(ECE)を用いてモデルの不確実性を定量化します。実際には
ece_thresholdパラメータ(デフォルト0.1)で、補強が必要な知識ポイントを定義します。 - ターゲット・データ生成ECEの値が高いロングテール知識のQ&Aペアを優先的に生成します。ユーザは
sampling_hopsパラメータ(2-3ホップが推奨される)を使用して、複数のレベルの連想知識がカバーされるようにする。 - 実践への提言特殊なドメインのアプリケーションでは、少なくとも500の生テキストデータを用意することをお勧めします。
style=detailed詳細な説明を含むQ&Aペアを生成し、GPU加速処理を使用する。
この方法は、従来のデータ強化技術(プロジェクトのテストデータに基づく)と比較して、ロングテール知識のカバレッジを最大461 TP3T改善する。
この答えは記事から得たものである。GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成するについて































