AIME 2026 评测基准详情

386

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

American Invitational Mathematics Examination 2026

基于2026年美国数学邀请赛的大模型数学推理能力评测基准

问题数量 15

发布机构个人

评测类别数学推理

评测指标 Accuracy

支持语言英文

难度等级高难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

AIME 2026 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

Claude Opus 4.5 default

93.3

2025-11-25

未知

Claude Opus 4.5 default

93.3

AIME 2026得分 93.3

发布时间 2025-11-25

参数(亿) 未知

查看模型详情

GLM-4.7 default

92.9

2025-12-22

3580.0

GLM-4.7 default

92.9

AIME 2026得分 92.9

发布时间 2025-12-22

参数(亿) 3580.0

查看模型详情

DeepSeek V3.2 default

92.7

2025-12-01

6710.0

DeepSeek V3.2 default

92.7

AIME 2026得分 92.7

发布时间 2025-12-01

参数(亿) 6710.0

查看模型详情

GLM-5 default

92.7

2026-02-11

7440.0

GLM-5 default

92.7

AIME 2026得分 92.7

发布时间 2026-02-11

参数(亿) 7440.0

查看模型详情

Kimi K2.5 default

92.5

2026-01-27

10000.0

Kimi K2.5 default

92.5

AIME 2026得分 92.5

发布时间 2026-01-27

参数(亿) 10000.0

查看模型详情

Qwen3.5-397B-A17B default

91.3

2026-02-16

397.0

Qwen3.5-397B-A17B default

91.3

AIME 2026得分 91.3

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

Gemini 3.0 Pro (Preview 11-2025) default

90.6

2025-11-18

未知

Gemini 3.0 Pro (Preview 11-2025) default

90.6

AIME 2026得分 90.6

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

American Invitational Mathematics Examination 2026

模型模式说明

AIME 2026 大模型得分排行榜

AIME 2026详细排名数据表格