SkyworkUniPicは、SkyworkAIによって開発されたオープンソースのマルチモーダルモデルで、画像理解、テキスト生成画像、画像編集に焦点を当てています。1億5,000万パラメータのアーキテクチャを使用して、3つの視覚言語タスクを統合しています。UniPicは、GenEval、DPG-Benchなどのベンチマークで高い性能を発揮しており、ビジュアルAIアプリケーションの開発に適しています。プロジェクトのコードとモデルの重みは、自由な使用と改変を奨励するMITライセンスの下、GitHubで公開されています。
機能一覧
- 図形理解入力画像の内容を分析し、関連する質問に答えたり、情報を抽出したりします。
- テキストから画像へ1024×1024ピクセルの高画質画像を生成します。
- 画像編集例えば、特定の要素を置き換えたり、スタイルを調整したりします。
- コンシューマーグレードのハードウェアをサポートRTX 4090のようなGPU上で、特別な装置を必要とせずに効率的に動作します。
- オープンソース・モデルの重み付け開発者が直接ダウンロードしてカスタマイズできる訓練済みモデルを提供します。
ヘルプの使用
設置プロセス
UniPicのインストールと使用には、基本的なPython環境とGPUサポートが必要です。以下に詳しいインストール手順を示します:
- クローン倉庫::
ターミナルを開き、以下のコマンドを実行してUniPicリポジトリをクローンする:git clone https://github.com/SkyworkAI/UniPic cd UniPic
- 仮想環境の構築::
condaを使用してPython 3.10.14環境を作成し、依存関係の分離を確実にする:conda create -n unipic python=3.10.14 conda activate unipic
- 依存関係のインストール::
プロジェクトに必要なPythonライブラリをインストールする:pip install -r requirements.txt
- モデルウェイトのダウンロード::
UniPicは事前に訓練されたモデルの重みを提供しており、Hugging Faceからダウンロードする必要があります。以下のコマンドを実行してください:pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/Skywork-UniPic-1.5B --local-dir checkpoint --repo-type model
- 環境変数の設定::
スクリプトの実行にプロジェクトのパスを追加する:export PYTHONPATH=./:$PYTHONPATH
機能 操作の流れ
UniPicは主に3つの機能をサポートしています:画像理解、テキストから画像への生成、画像編集。詳しい操作方法は下記の通りです:
1.テキストから画像へ
ユーザーは、1024×1024ピクセルの画像にテキスト説明をつけて生成することができます。例えば、公園の芝生の上に立っているゴールデンレトリバーの画像を生成します:
- 手続き::
以下のコマンドを実行して、モデルプロファイル、ウェイトパス、およびテキストプロンプトを指定します:python scripts/text2image.py configs/models/qwen2_5_1_5b_kl16_mar_h.py \ --checkpoint checkpoint/pytorch_model.bin \ --image_size 1024 \ --prompt "A glossy-coated golden retriever stands on the park lawn beside a life-sized penguin statue." \ --output output.jpg
- ほら::
- 現在、画像生成に対応しているのは1024×1024ピクセルのみです。
- テキスト・プロンプトは、より良い生成のために明確かつ具体的である必要がある。
- 出力画像は指定された
output.jpg
ドキュメンテーション
2.画像編集
UniPicでは、既存の画像をテキストコマンドで変更することができます。例えば、画像の星をロウソクに置き換えることができます:
- 手続き::
入力画像を用意する。data/sample.png
)、以下のコマンドを実行する:python scripts/image_edit.py configs/models/qwen2_5_1_5b_kl16_mar_h.py \ --checkpoint checkpoint/pytorch_model.bin \ --image_size 1024 \ --image data/sample.png \ --prompt "Replace the stars with the candle." \ --output output.jpg
- ほら::
- 入力画像は1024×1024ピクセルでなければならない。
- テキストによる指示は、要素の置き換え、追加、削除などの修正を明確に記述する必要がある。
- 編集した画像は
output.jpg
.
3.画像理解
UniPicは画像コンテンツを分析し、関連する質問に答えることができる。現在、スタンドアロンの画像理解スクリプトはリポジトリで提供されていませんが、開発者はモデルの重みとQwen2.5フレームワークに基づいて実装をカスタマイズできます。
- 作戦提案::
- Hugging FaceのTransformersライブラリを使ってモデルをロードする。
- 画像と質問を用意し、モデルの推論インターフェースを呼び出して答えを得る。
- 特定の機能を実装するには、SkyworkAIのドキュメントやコミュニティの例を参照してください。
その他の便利なヒント
- ハードウェア要件少なくとも24GBのビデオメモリを搭載したNVIDIA RTX 4090以上のGPUを推奨します。
- デバッグの問題依存関係の衝突が発生した場合は、PythonのバージョンとCUDAの互換性を確認してください。
- 地域支援GitHub リポジトリの Issues ページで、よくある質問を見たり、新しい質問を投稿したりできます。
- モデルの最適化開発者は、特定のタスクやデータセットに合わせてモデルの重みを微調整することができます。
アプリケーションシナリオ
- コンテンツ制作
UniPicは、ブロガーやデザイナーなどのクリエイターが高品質な画像を生成するのに適しています。例えば、ブランドのスタイルに合わせたプロモーション画像を生成したり、記事内容からイラストを自動生成したり。 - 教育・研究
研究者はUniPicを使ってマルチモーダルAIの能力を探求できる。学生はオープンソースコードを通して画像処理と生成技術を学ぶことができます。 - 電子商取引と広告
マーチャントはUniPicを使って、商品画像を編集することができます。例えば、背景を変更したり、視覚的な魅力を高めるためにプロモーション要素を追加したりすることができます。 - ゲーム開発
開発者は、ゲームのシナリオやキャラクターのコンセプト画を作成し、デザインのアイデアを素早く反復することができます。
品質保証
- UniPicがサポートする画像解像度は?
現在のところ、画像の生成と編集には1024×1024ピクセルのみがサポートされています。 - UniPicを動かすには特別なGPUが必要ですか?
必須ではありません。コンシューマー向けGPU(RTX 4090など)でも動作しますが、24GB以上のビデオメモリを推奨します。 - モデルの重さはどうやって知るのですか?
ハギング・フェイス経由でダウンロードhuggingface-cli download Skywork/Skywork-UniPic-1.5B
命令だ。 - UniPicは市販されていますか?
UniPicはMITライセンスのもとでライセンスされており、商用利用、改変、配布が許可されています。 - 画像生成のクオリティは?
UniPicはGenEvalで0.86、DPG-Benchで85.5を記録し、いくつかの大型モデルよりも優れた品質を生み出している。