Lumina-mGPT-2.0は、上海人工知能研究所と香港中文大学などによって共同開発されたオープンソースの回帰画像生成モデルである。このモデルには、以下の重要な技術的特徴がある:
- マルチタスク・サポート基本的なテキストから画像への生成だけでなく、画像ペア生成、テーマ駆動型生成、多ラウンド編集、制御された生成などの複雑なタスクにも対応。
- 高解像度出力最大768×768ピクセルの画像生成に対応し、細部まで豊かなビジュアルを実現
- 独立したトレーニング・アーキテクチャ他の学習済みモデルに依存することなく、ゼロから学習されるため、生成されるスタイルの独自性が保証されます。
- 最適化の加速フラッシュ・アテンション・モジュールと投機的ヤコビ復号化技術により、推論速度を大幅に向上
- 柔軟なコントロール生成される結果の多様性と精度を調整するために、温度、top_kなどのパラメーターを提供する。
このモデルは、インフラとしてMoVQGANを使用し、Apache 2.0プロトコルに基づくオープンソースであるため、画像生成シーンを細かく制御する必要があるプロフェッショナルユーザーに特に適している。
この答えは記事から得たものである。Lumina-MGPT-2.0:複数の画像生成タスクを扱うための自己回帰画像生成モデルについて