Kilnに内蔵されたインタラクティブなデータ生成システムは、ビジュアルな編集インターフェイスを通じて、従来のデータ注釈の時間と労力のかかる問題を解決します。このシステムは、グラフィカルなドラッグ・アンド・ドロップにより、ユーザが迅速にトレーニング・サンプルを構築することをサポートし、モデル・トレーニングの要件を満たす構造化データ(JSON形式)を自動的に生成します。そのインテリジェントな補助機能は、ユーザーが入力したキーワードに従って関連するサンプルを自動的に展開し、リアルタイムでデータの品質検証のヒントを提供することができます。
この機能の技術的なハイライトは、ルールエンジンと生成AI技術の革新的な組み合わせであり、生成データの精度を保証するとともに、セマンティック拡張によって多様なトレーニングサンプルを作成することができる。具体的なワークフローとしては、データスキーマの定義→生成ルールの設定→生成結果のプレビュー→データセットの一括エクスポートがある。生成されたサンプルには、複数のキュータイプ(連鎖思考/少数サンプル/複数サンプル)に対する完全なアノテーションが自動的に含まれる。
実践的な使用例では、このツールを使って1万件の金融ドメインのQAトレーニングデータを作成する時間が、従来の手作業によるラベリングでは3週間かかっていたものが4時間に短縮され、自動キャリブレーションによってデータ品質がプロのラベリングレベルにまで向上しています。これにより、中小規模のチームでも高品質のドメイン固有データセットを簡単に構築することができます。
この答えは記事から得たものである。Kiln: シンプルなLLMモデルの微調整とデータ合成ツール!について































