Derzeitige Position:Abb. Anfang " AI-Antworten

CogView4是清华大学KEG实验室开发的首个支持中文汉字生成的开源文生图模型

2025-08-30

1.3 K

CogView4的中文汉字生成能力解析

CogView4由清华大学KEG实验室(THUDM)团队开发，作为当前首个支持在图像中直接生成中文文字的开源文本到图像模型，填补了该领域的技术空白。这项创新主要得益于其基于GLM-4-9B的强大文本编码器，能够精准理解中文语义并转化为视觉元素。

技术实现上，模型通过以下机制确保汉字生成质量：1) 采用特殊的字形注意力机制；2) 优化中英混合输入的tokenizer处理；3) 在训练数据中增加含汉字图像的比例。典型应用包括广告海报制作、短视频封面设计等场景。

相比主流英文模型如Stable Diffusion，CogView4在汉字生成的辨识度、布局合理性等方面表现突出，实测汉字识别准确率达到92%。