GLM-Image
不支持
4K tokens
2048 tokens
视觉大模型
2026-01-14
35.8GB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 图片 | 0.015 |
GLM-Image 是智谱 AI(Z.ai)开源的一个图像生成大模型。官方称这是第一个“工业级的离散自回归图像生成模型”,它结合自回归生成器和扩散解码器,专为高保真细节和密集知识整合的任务设计。模型总参数规模 16 亿(自回归生成器 9B + 扩散解码器 7B),官方提供了量化版本,量化后可在消费级显卡上运行。
GLM-Image 采用混合架构,将语义理解与细节生成解耦:
模型支持中英文多语言,在 MIT 许可下开源,通过 Diffusers 以 Safetensors 格式发布。完整 fp16/bf16 推理需要 ≥80GB VRAM(或多卡),但官方和社区已提供量化版本(例如 AWQ/GGUF),可显著降低显存需求,支持消费级显卡运行。
默认采样参数:do_sample=True、temperature=0.9、top_p=0.75。未来计划集成 vLLM-Omni 和 SGLang 以进一步提升推理速度。
采用 semantic-VQ 令牌化,在信息完整性和语义相关性上优于传统 VQVAE 和 1D 向量方法,训练损失更低(~3 vs ~7)。
从 GLM-4-9B 初始化,冻结文本嵌入,新增视觉嵌入和视觉 LM Head。多阶段分辨率训练(256px → 512px → 混合 512-1024px),使用 XOmni 16× 压缩令牌器。高分辨率阶段采用渐进生成策略(先用下采样图像生成前 256 令牌引导布局)。
使用流匹配,条件输入为投影后的 semantic-VQ 令牌 + VAE 潜在变量(通道维度拼接),无需额外文本编码器。文本渲染时拼接 Glyph-byT5 字形嵌入。图像编辑时同时使用参考图像的 semantic-VQ 令牌和 VAE 潜在变量。采用块因果注意力(类似 ControlNet),兼顾效率与细节保留。
解耦强化学习:自回归部分用 GRPO(低频奖励:HPSv3 美学、OCR 文本准确、VLM 语义);解码器用 flow-GRPO(高频奖励:LPIPS 感知相似、OCR、手部细节评分)。
在文本渲染和知识密集任务中表现较强,与主流潜在扩散模型在一般质量上相当,但在特定场景(如长文本、中文渲染)有优势。
GLM-Image在各项评测上表现都很不错,几乎和闭源模型不相上下。官方给出了一些实际的生成图片的例子,如下图(有压缩,原图比较大,可以去官网):

可以看到,中文字体相当可以。除了官网给的图以外,GLM-Image在各项评测上效果也很好,例如在文本渲染评测中,官方给了2个结果,英文上与Qwen-Image不相上下,但是中文好过Qwen-Image-2512
而在其它的综合基准测试中,效果也很不错:
总体来看,在开源模型中,GLM-Image 在文本准确性和知识密集任务上具有竞争力。
GLM-Image 的混合架构有效弥补了纯扩散模型在知识密集和文本渲染上的短板,在开源模型中属于文本/知识任务表现较强的选择之一。16 亿总参数规模适中,量化后对硬件要求大幅降低,提升了实际可落地性。但在通用美学、推理能力、多样性等方面,与部分最新开源或闭源模型仍有差距;完整精度推理仍需高端硬件。总体适合需要高信息密度和精准文本渲染的场景,未来推理优化空间较大。
关注DataLearnerAI微信公众号,接受最新大模型资讯