データ合成とモデルトレーニングにおける技術革新
UNOのデータ処理システムは、2つのコア技術から構成されている。第1に、拡散モデリングに基づくインテリジェントなデータ強化プロセスで、1つの参照画像からマルチビュー、マルチシーンの学習サンプルを自動的に生成することができる。第2に、被写体を意識したデータサンプリング戦略の導入で、多被写体シーンの各エンティティの特徴がバランスよく学習されるようにする。
学習戦略に関しては、研究チームは3段階の最適化スキームを使用した。大規模な汎用データに基づく事前学習、次に合成データによる微調整、最後に細部の品質を向上させるための敵対的学習である。このスキームにより、わずか1~4枚の参照画像で85%以上の特徴保持率を達成することができる。このプロジェクトのオープンソースのトレーニングコードは、カスタマイズされたデータセットのためのfinetuneをサポートしており、研究者はconfigs/training.yaml設定ファイルを修正することで、新しいタスクを素早く開始することができる。
この答えは記事から得たものである。UNO:単一主題および複数主題のカスタマイズされた画像生成ツールのサポート(eコマース・グラフィックに最適)について































