グラフジェンが生成する合成データは、3次元的な強みを持つ:
1.ナレッジ・カバレッジの優位性
とおすマルチホップ近傍サンプリングテキスト中の暗黙的な関連(例えば、A→B→Cの間接的な関係)を自動的に発見し、複雑な論理連鎖を含むQ&Aペアを生成することができるため、人手によるアノテーションと比較して、知識のカバー範囲を約40%拡大することができる。このシステムが特に得意とするのはロングテールの知識手作業によるアノテーションでは、コストの問題から見過ごされがちなものだ。
2.品質管理の利点
ECE指標に基づくダイナミック・キャリブレーション機構モデルの弱点に焦点を当て、手作業によるラベリングで主観的なバイアスを避けるように生成する。システムサポートスタイル・パラメトリック・コントロール(例えば、技術文書レベルの回答を生成するにはdetail_level=3を設定します)。
3.効率的なコストメリット
1,000のテキストを処理する平均時間は約2時間(NVIDIA V100)で、手作業でアノテーションを行う場合の1/5のコストです。ナレッジグラフの再利用というメカニズムにより、同じコーパスから異なるスタイルのデータが生成されても、マップ構築ステップを繰り返す必要がない。
現在のバージョンは、創造的なタスク(ストーリー生成など)については、人間の専門家によるアノテーションにまだ劣っていることを強調しておく。事実知識の強化シーン
この答えは記事から得たものである。GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成するについて































