GLM-ASR-2512
不支持
语音大模型
2025-12-10
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 音频 | 0.06 元 / 分钟 |
智谱在 2025 年 12 月 10 日正式推出两款面向语音识别任务的模型:闭源云端模型 GLM-ASR(具体版本为 GLM-ASR-2512)与完全开源、参数规模约 1.5B 的 GLM-ASR-Nano-2512。前者作为在线服务提供高质量的语音转写能力,后者用于本地化部署与端侧应用。两者共同构成智谱在语音识别方向的最新产品能力。
GLM-ASR 是智谱面向企业与开发者提供的云端语音识别模型,支持在真实环境中将音频高质量地转写为文本。模型强调“可读性”和“场景鲁棒性”,适用于会议、客服、教学、多说话人交流等实际业务场景,而不是仅面对干净语音的实验室条件。
音频时长上限为 30 秒(同步接口),更长内容通常以分段方式处理。
GLM-ASR 通过智谱开放平台提供 RESTful API 和 SDK(Python、Java 等),关键参数包括:
这些设置使模型更适合会议笔记、客服语音审核、字幕制作等需要保持术语一致性或需要实时反馈的场景。
GLM-ASR 的设计面向广泛而真实的使用环境,包括:
这种按时长计费方式适用于会议转写、客服录音等分钟级数据量较大的使用场景,也方便成本估算。
关注DataLearnerAI微信公众号,接受最新大模型资讯