CogView4是由清华大学KEG实验室(THUDM)开发的一款开源文生图模型,专注于将文本描述转化为高质量图像。它的核心功能特点包括:
- バイリンガルサポート:能精准理解中文和英文提示词,尤其在中文场景表现突出
- 汉字生成能力:首个支持在图像中生成汉字的开源模型,适合制作含中文的创意作品
- 高解像度出力:支持最高2048×2048的任意尺寸图像生成
- 复杂语义理解:能处理最多1024个token的长文本提示,准确捕捉细节
- オープンソースの特徴:提供完整的代码和预训练模型,支持二次开发
该模型基于GLM-4-9B文本编码器,特别适合广告设计、短视频创作等需要创意图像生成的场景。
この答えは記事から得たものである。CogView4:中国語と英語の高精細対訳画像を生成するオープンソースのグラフィカルモデルについて