GLM-ASR-2512

语音大模型

GLM-ASR-2512

发布时间: 2025-12-10

426

GitHub Hugging Face 在线体验

模型参数（Parameters）

未披露

最高上下文长度（Context Length）

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

暂无数据

最长输出结果

暂无数据

模型类型

语音大模型

发布时间

2025-12-10

模型预文件大小

暂无数据

推理模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源 - 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

GLM-ASR-2512 - 智谱AI开放文档

DataLearnerAI博客

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
音频	0.06 元 / 分钟	--

GLM-ASR-2512模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

智谱AI

查看发布机构详情

GLM-ASR-2512模型解读

智谱在 2025 年 12 月 10 日正式推出两款面向语音识别任务的模型：闭源云端模型 GLM-ASR（具体版本为 GLM-ASR-2512）与完全开源、参数规模约 1.5B 的 GLM-ASR-Nano-2512。前者作为在线服务提供高质量的语音转写能力，后者用于本地化部署与端侧应用。两者共同构成智谱在语音识别方向的最新产品能力。

GLM-ASR（闭源）：面向生产场景的在线语音识别模型

模型定位

GLM-ASR 是智谱面向企业与开发者提供的云端语音识别模型，支持在真实环境中将音频高质量地转写为文本。模型强调“可读性”和“场景鲁棒性”，适用于会议、客服、教学、多说话人交流等实际业务场景，而不是仅面对干净语音的实验室条件。

主要特点

上下文理解能力增强：在连续语音中，能够根据前后语境生成更自然、连贯的文本，而不只是逐字式转写。
噪声鲁棒性强：即便存在机械噪声、环境噪音、风噪、混响等复杂因素，仍能保持较稳定的识别质量。
多语种与方言适配：除普通话与英语外，还支持多种中国方言，覆盖从东北官话到西南官话等多个地域变体，适应国内复杂语言环境。
字符错误率 CER 0.0717：在多场景测试中的整体表现达到 0.0717 的 CER，属于云端 ASR 服务中的较高水准。

输入与输出

输入：音频文件（wav/mp3），支持直接上传文件或 Base64 方式提交。
输出：结构化、有标点的自然语言文本。

音频时长上限为 30 秒（同步接口），更长内容通常以分段方式处理。

API 调用与参数

GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK（Python、Java 等），关键参数包括：

model：glm-asr-2512
stream：是否采用流式分段返回
prompt：连续识别时可提供之前转写片段作为上下文
hotwords：用于强化特定行业词汇和专有名词
request_id / user_id：便于业务侧跟踪、审计与风控

这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。

适用场景

GLM-ASR 的设计面向广泛而真实的使用环境，包括：

企业会议记录：连续多轮、多人交互的长语音内容转写
客户服务与质检：自动转录客服通话并用于情绪分析与业务分类
教学与培训记录：课堂、讲座录音转写
视频字幕生成：直播、录播视频自动生成文本字幕
车载语音与智能家居：适应自然口音差异的语音指令识别

定价与并发能力

价格：0.06 元 / 分钟音频
并发限制：按用户等级分级管理（例如基础账户 5 并发、高等级账户可达 20 并发）

这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景，也方便成本估算。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯