以下は、Janus-4oを使った画像生成の詳細な手順である:
1.ロードモデル
from transformers import AutoModelForCausalLM, VLChatProcessor
model_path = "FreedomIntelligence/Janus-4o-7B"
vl_chat_processor = VLChatProcessor.from_pretrained(model_path)
vl_gpt = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).cuda().eval()
2.生成関数を定義する
利用する text_to_image_generate 関数(サンプルコードはGitHubを参照):
- 入力パラメータ:テキストプロンプト(例:「星空の下の砂漠」)、出力パス、プロセッサ、モデルオブジェクト。
- オプションのパラメータ:温度値(多様性の発生を制御する)、並列サイズ、構成の重みなど。
3.インプリメンテーション世代
この関数は、生成された画像を指定されたパスに保存し、処理中にHugging Faceのパイプラインを呼び出してテキストと画像データを処理します。生成終了後、画像ビューアツールで結果をプレビューできます。
注:GPUが使用可能であることを確認し、GitHubのドキュメントを参照して、最良の結果を得るためにパラメータを調整する。
この答えは記事から得たものである。ShareGPT-4o-Image:オープンソースのマルチモーダル画像生成データセットについて

































