GL

GLM-ASR-2512

语音大模型

GLM-ASR-2512

发布时间: 2025-12-10

37
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度
暂无数据
最长输出结果
暂无数据
模型类型

语音大模型

发布时间

2025-12-10

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
音频 0.06 元 / 分钟 --

GLM-ASR-2512模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

GLM-ASR-2512模型解读

智谱在 2025 年 12 月 10 日正式推出两款面向语音识别任务的模型:闭源云端模型 GLM-ASR(具体版本为 GLM-ASR-2512)与完全开源、参数规模约 1.5B 的 GLM-ASR-Nano-2512。前者作为在线服务提供高质量的语音转写能力,后者用于本地化部署与端侧应用。两者共同构成智谱在语音识别方向的最新产品能力。


GLM-ASR(闭源):面向生产场景的在线语音识别模型

模型定位

GLM-ASR 是智谱面向企业与开发者提供的云端语音识别模型,支持在真实环境中将音频高质量地转写为文本。模型强调“可读性”和“场景鲁棒性”,适用于会议、客服、教学、多说话人交流等实际业务场景,而不是仅面对干净语音的实验室条件。

主要特点

  • 上下文理解能力增强:在连续语音中,能够根据前后语境生成更自然、连贯的文本,而不只是逐字式转写。
  • 噪声鲁棒性强:即便存在机械噪声、环境噪音、风噪、混响等复杂因素,仍能保持较稳定的识别质量。
  • 多语种与方言适配:除普通话与英语外,还支持多种中国方言,覆盖从东北官话到西南官话等多个地域变体,适应国内复杂语言环境。
  • 字符错误率 CER 0.0717:在多场景测试中的整体表现达到 0.0717 的 CER,属于云端 ASR 服务中的较高水准。

输入与输出

  • 输入:音频文件(wav/mp3),支持直接上传文件或 Base64 方式提交。
  • 输出:结构化、有标点的自然语言文本。

音频时长上限为 30 秒(同步接口),更长内容通常以分段方式处理。

API 调用与参数

GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK(Python、Java 等),关键参数包括:

  • model:glm-asr-2512
  • stream:是否采用流式分段返回
  • prompt:连续识别时可提供之前转写片段作为上下文
  • hotwords:用于强化特定行业词汇和专有名词
  • request_id / user_id:便于业务侧跟踪、审计与风控

这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。

适用场景

GLM-ASR 的设计面向广泛而真实的使用环境,包括:

  • 企业会议记录:连续多轮、多人交互的长语音内容转写
  • 客户服务与质检:自动转录客服通话并用于情绪分析与业务分类
  • 教学与培训记录:课堂、讲座录音转写
  • 视频字幕生成:直播、录播视频自动生成文本字幕
  • 车载语音与智能家居:适应自然口音差异的语音指令识别

定价与并发能力

  • 价格:0.06 元 / 分钟音频
  • 并发限制:按用户等级分级管理(例如基础账户 5 并发、高等级账户可达 20 并发)

这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景,也方便成本估算。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat