GLM-4.7-Flash
支持
200K tokens
131072 tokens
推理大模型
2026-01-19
62.5GB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 0 人民币/100 万tokens | 0 人民币/100 万tokens |
GLM-4.7-Flash 是由 Z.ai(zai-org)发布并开源的大型语言模型,属于 GLM-4.7 系列。模型已在 Hugging Face 平台公开,提供完整权重与模型卡信息,面向文本生成类任务。
该模型主要支持中文与英文输入,适用于通用对话、代码生成、推理问答等典型大模型使用场景。
GLM-4.7-Flash 的参数规模约为 31B,采用 BF16 / FP32 精度格式发布。
从模型标注信息来看,其配置被归类为轻量级 MoE(Mixture-of-Experts)相关实现,定位于在算力与模型能力之间取得平衡。
在 GLM-4.7 系列中,Flash 版本与完整体量模型(数百 B 参数规模)形成区分,主要面向单机或中等规模集群的部署场景。
根据模型卡中公开的评测数据,GLM-4.7-Flash 在多项常见基准测试中给出了量化结果,包括:
在这些测试中,GLM-4.7-Flash 与同参数量级模型(如 20B–30B 区间)存在数值差异,具体表现以官方公布的单项得分为准。
需要注意的是,上述结果均来自统一评测设置下的自动基准,未包含真实业务场景下的定制化测试。
GLM-4.7-Flash 支持多种主流推理框架和部署方式,包括:
模型卡中给出了对应的加载与推理示例,涵盖 tokenizer 初始化、模型加载与文本生成流程。
此外,该模型也可通过 Z.ai 提供的 API 平台进行调用,用于云端推理服务。
GLM-4.7-Flash 以 MIT License 形式发布。
该许可允许用户在遵循协议条款的前提下进行修改、分发和商业使用。
模型卡未额外标注使用领域限制或访问限制。
GLM-4.7-Flash 隶属于 GLM 系列模型,该系列由 Z.ai 持续维护和发布,涵盖多种参数规模与使用场景的模型版本。
从公开信息来看,Flash 版本是 GLM-4.7 系列中针对部署效率和资源使用进行调整的一个分支。
社区讨论中对该模型的关注点主要集中在其参数规模、推理成本、基准分数以及与其他同级模型的对比。
GLM-4.7-Flash 是一个约 31B 参数规模的开源语言模型,面向通用文本生成与推理任务。
模型提供了标准化的权重发布、基准评测数据与多种部署方式支持,并采用 MIT 许可。
对于需要在有限算力条件下使用 GLM-4.7 系列模型的场景,GLM-4.7-Flash 是当前公开版本之一,其具体适用性仍需结合实际任务与部署环境进行评估。
关注DataLearnerAI微信公众号,接受最新大模型资讯