SkyworkUniPicは、SkyworkAIによって開発されたオープンソースのマルチモーダルモデルで、画像理解、テキスト生成画像、画像編集の3つの主要機能に焦点を当てています。複数の視覚言語タスクを統合するために、1億5,000万パラメータの単一アーキテクチャを使用しています。具体的な機能は以下の通り:
- 図形理解入力画像の内容を分析し、関連する質問に答えたり、情報を抽出したりします。
- テキストから画像へ1024×1024ピクセルの高画質画像を生成します。
- 画像編集例えば、特定の要素を置き換えたり、スタイルを調整したりします。
さらに、UniPicはコンシューマー向けGPU(RTX 4090など)での実行をサポートしており、開発者が自由に使用・変更できるよう、オープンソースのモデルウェイトとMITライセンスを提供している。
この答えは記事から得たものである。SkyworkUniPic: 統合処理画像理解と生成のためのオープンソースモデルについて