CogView4是由清华大学KEG实验室(THUDM)开发的一款开源文生图模型,专注于将文本描述转化为高质量图像。它的核心功能特点包括:
- 中英双语支持:能精准理解中文和英文提示词,尤其在中文场景表现突出
- 汉字生成能力:首个支持在图像中生成汉字的开源模型,适合制作含中文的创意作品
- 高分辨率输出:支持最高2048×2048的任意尺寸图像生成
- 复杂语义理解:能处理最多1024个token的长文本提示,准确捕捉细节
- 开源特性:提供完整的代码和预训练模型,支持二次开发
该模型基于GLM-4-9B文本编码器,特别适合广告设计、短视频创作等需要创意图像生成的场景。
本答案来源于文章《CogView4:生成中英双语高清图片的开源文生图模型》