GLM-OCR
不支持
8K tokens
4096 tokens
视觉大模型
2026-02-03
1.8GB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 0.03 美元/100 万tokens | |
| 图片 | 0.03 美元/100 万tokens |
GLM-OCR 是由智谱 AI 于 2026 年 2 月推出的新一代开源 OCR(光学字符识别)模型。作为 GLM 系列在视觉理解领域的最新成果,该模型专为解决复杂文档解析难题而设计,旨在以极低的参数规模实现工业级的识别精度。GLM-OCR 虽为 0.9B 参数的轻量级模型,但在多项权威基准测试中展现了超越更大规模模型的性能,支持在 vLLM、SGLang 和 Ollama 等主流推理框架中高效部署,特别适合边缘计算和高并发业务场景。
在权威文档解析评测基准 OmniDocBench V1.5 中,GLM-OCR 取得了 94.6 分的成绩,位列 SOTA(当前最优),在文本、公式、表格及信息抽取四个子任务上的表现均优于多款同类专项模型。
GLM-OCR 的权重及推理代码已在 GitHub 和 Hugging Face 平台开源。智谱官方开放平台亦提供 API 调用服务。
关注DataLearnerAI微信公众号,接受最新大模型资讯