本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。
所有评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
数据地址:https://www.datalearner.com/leaderboards/category/math
|
排名
|
模型
|
AIME2025
|
AIME 2024
|
MATH-500
|
GSM8K
|
|---|---|---|---|---|---|
| 1 |
Step 3.5 Flash
default
|
99.80 | 未公布 | 未公布 | 未公布 |
| 2 |
Claude Opus 4.6
深度思考模式(无工具)
|
99.79 | 未公布 | 未公布 | 未公布 |
| 3 |
Gemini 3.0 Flash
default
|
99.70 | 未公布 | 未公布 | 未公布 |
| 4 |
GPT-5
default
|
99.60 | 未公布 | 未公布 | 未公布 |
| 5 |
OpenAI o4 - mini
default
|
99.50 | 98.70 | 未公布 | 未公布 |
| 6 |
Gemini 2.5 Deep Think
default
|
99.20 | 未公布 | 未公布 | 未公布 |
| 7 |
Grok 4
default
|
98.80 | 未公布 | 未公布 | 未公布 |
| 8 |
GPT OSS 20B
default
|
98.70 | 96.00 | 未公布 | 未公布 |
| 9 |
GLM-4.6
default
|
98.60 | 未公布 | 未公布 | 未公布 |
| 10 |
GPT OSS 120B
default
|
97.90 | 96.60 | 未公布 | 未公布 |
| 11 |
Haiku 4.5
default
|
96.30 | 未公布 | 未公布 | 未公布 |
| 12 |
Kimi K2.5
default
|
96.10 | 未公布 | 未公布 | 未公布 |
| 13 |
DeepSeek V3.2 Speciale
default
|
96.00 | 未公布 | 未公布 | 未公布 |
| 14 |
GLM-4.7
default
|
95.70 | 未公布 | 未公布 | 未公布 |
| 15 |
Gemini 3.0 Pro (Preview 11-2025)
default
|
95.00 | 未公布 | 未公布 | 未公布 |
| 16 |
GPT-5.1
default
|
94.00 | 未公布 | 未公布 | 未公布 |
| 17 |
GPT-5.1
思考模式 High(无工具)
|
94.00 | 未公布 | 未公布 | 未公布 |
| 18 |
DeepSeek V3.2
default
|
93.10 | 未公布 | 未公布 | 未公布 |
| 19 |
o3-pro
default
|
93.00 | 93.00 | 未公布 | 未公布 |
| 20 |
Qwen3-235B-A22B-Thinking-2507
default
|
92.30 | 未公布 | 未公布 | 未公布 |
| 21 |
Qwen3-235B-A22B-Thinking
default
|
92.30 | 未公布 | 未公布 | 未公布 |
| 22 |
Grok 4 Fast
default
|
92.00 | 未公布 | 未公布 | 未公布 |
| 23 |
GLM-4.7-Flash
default
|
91.60 | 未公布 | 未公布 | 未公布 |
| 24 |
DeepSeek-V3.1 Terminus
default
|
90.00 | 未公布 | 未公布 | 未公布 |
| 25 |
DeepSeek V3.2-Exp
default
|
89.30 | 未公布 | 未公布 | 未公布 |
| 26 |
Grok 4.1 Fast
default
|
89.00 | 未公布 | 未公布 | 未公布 |
| 27 |
OpenAI o3
default
|
88.90 | 91.60 | 98.10 | 未公布 |
| 28 |
DeepSeek-V3.1
default
|
88.40 | 93.10 | 未公布 | 未公布 |
| 29 |
Gemini 2.5-Pro
default
|
88.00 | 92.00 | 98.80 | 未公布 |
| 30 |
DeepSeek-R1-0528
default
|
87.50 | 91.40 | 98.00 | 未公布 |
| 31 |
|
86.90 | 92.00 | 未公布 | 未公布 |
| 32 |
OpenAI o3-mini
default
|
86.50 | 60.00 | 95.80 | 未公布 |
| 33 |
MiniMax M2.5
default
|
86.30 | 未公布 | 未公布 | 未公布 |
| 34 |
Intern-S1
default
|
86.00 | 未公布 | 未公布 | 未公布 |
| 35 |
Claude Sonnet 4
default
|
85.00 | 43.40 | 未公布 | 未公布 |
| 36 |
Gemini-2.5-Pro-Preview-05-06
default
|
83.00 | 92.00 | 98.80 | 未公布 |
| 37 |
Step3
default
|
82.90 | 未公布 | 未公布 | 未公布 |
| 38 |
Qwen3-235B-A22B
default
|
81.50 | 85.70 | 98.00 | 96.40 |
| 39 |
Qwen3-4B-Thinking-2507
default
|
81.30 | 未公布 | 未公布 | 未公布 |
| 40 |
M2.1
default
|
81.00 | 未公布 | 未公布 | 未公布 |
| 41 |
Qwen3 Max (Preview)
default
|
80.60 | 未公布 | 未公布 | 未公布 |
| 42 |
MiniMax M2
default
|
78.00 | 未公布 | 未公布 | 未公布 |
| 43 |
Claude Opus 4.1
default
|
78.00 | 未公布 | 未公布 | 未公布 |
| 44 |
Grok 3
default
|
77.10 | 84.20 | 未公布 | 未公布 |
| 45 |
MiniMax-M1-80k
default
|
76.90 | 86.00 | 96.80 | 未公布 |
| 46 |
Hunyuan-A13B-Instruct
default
|
76.80 | 87.30 | 未公布 | 91.83 |
| 47 |
Claude Opus 4
default
|
75.50 | 76.00 | 98.20 | 未公布 |
| 48 |
Hunyuan-7B
default
|
75.30 | 81.10 | 93.70 | 未公布 |
| 49 |
Kimi K2 0905
default
|
75.20 | 未公布 | 未公布 | 未公布 |
| 50 |
MiniMax-M1-40k
default
|
74.60 | 83.30 | 96.00 | 未公布 |
| 51 |
Qwen3-32B
default
|
72.90 | 81.40 | 97.20 | 未公布 |
| 52 |
Gemini 2.5 Flash
default
|
72.00 | 88.00 | 未公布 | 未公布 |
| 53 |
Qwen3-235B-A22B-2507
default
|
70.30 | 未公布 | 未公布 | 未公布 |
| 54 |
DeepSeek-R1
default
|
70.00 | 79.80 | 97.30 | 未公布 |
| 55 |
Qwen3-Next
default
|
69.50 | 未公布 | 未公布 | 90.30 |
| 56 |
Pangu Pro MoE
default
|
68.10 | 79.20 | 96.80 | 未公布 |
| 57 |
Qwen3-8B
default
|
67.30 | 79.40 | 97.40 | 未公布 |
| 58 |
Magistral-Medium-2506
default
|
64.95 | 73.59 | 未公布 | 未公布 |
| 59 |
Gemini 2.5 Flash-Lite
default
|
63.10 | 未公布 | 未公布 | 未公布 |
| 60 |
Magistral-Small-2506
default
|
62.76 | 70.68 | 未公布 | 未公布 |
| 61 |
Qwen3-30B-A3B-2507
default
|
61.30 | 未公布 | 未公布 | 未公布 |
| 62 |
Claude Sonnet 3.7
default
|
54.80 | 23.30 | 82.20 | 未公布 |
| 63 |
Kimi K2
default
|
54.00 | 69.60 | 97.40 | 未公布 |
| 64 |
DeepSeek-V3-0324
default
|
47.70 | 59.40 | 94.00 | 96.30 |
| 65 |
Qwen3-4B-2507
default
|
47.40 | 未公布 | 未公布 | 未公布 |
| 66 |
GPT-5-mini
default
|
47.00 | 未公布 | 未公布 | 未公布 |
| 67 |
GPT-4o
default
|
42.10 | 9.30 | 75.90 | 未公布 |
| 68 |
GPT-4.1
default
|
36.70 | 48.10 | 92.80 | 95.90 |
| 69 |
ERNIE-4.5-VL-424B-A47B-Base
default
|
35.10 | 未公布 | 未公布 | 未公布 |
| 70 |
ERNIE-4.5-300B-A47B
default
|
35.10 | 54.80 | 96.40 | 96.60 |
| 71 |
Gemini 2.0 Flash Experimental
default
|
29.70 | 未公布 | 未公布 | 未公布 |
| 72 |
GPT-4o(2025-03-27)
default
|
26.70 | 未公布 | 未公布 | 未公布 |
| 73 |
Qwen3-30B-A3B
default
|
21.60 | 未公布 | 未公布 | 未公布 |
| 74 |
Grok 4 Heavy
default
|
100.00 | 未公布 | 未公布 | 未公布 |
| 75 |
GPT-5-Pro
default
|
100.00 | 未公布 | 未公布 | 未公布 |
| 76 |
Claude Sonnet 4.5
default
|
100.00 | 未公布 | 未公布 | 未公布 |
| 77 |
Kimi K2 Thinking
default
|
100.00 | 未公布 | 未公布 | 未公布 |
| 78 |
GPT-5.2
default
|
100.00 | 未公布 | 未公布 | 未公布 |
| 79 |
GPT-5.2
思考模式(无工具)
|
100.00 | 未公布 | 未公布 | 未公布 |
| 80 |
Gemma 2 - 9B
default
|
未公布 | 未公布 | 未公布 | 70.70 |
| 81 |
Qwen2.5-7B
default
|
未公布 | 未公布 | 未公布 | 85.40 |
| 82 |
Llama3.1-8B
default
|
未公布 | 未公布 | 未公布 | 55.30 |
| 83 |
Mistral-7B-Instruct-v0.3
default
|
未公布 | 未公布 | 未公布 | 36.20 |
| 84 |
Llama-3.2-3B
default
|
未公布 | 未公布 | 未公布 | 34.00 |
| 85 |
Gemini 1.5 Pro
default
|
未公布 | 未公布 | 未公布 | 未公布 |
| 86 |
Llama3.1-405B Instruct
default
|
未公布 | 未公布 | 未公布 | 未公布 |
| 87 |
Amazon Nova Pro
default
|
未公布 | 未公布 | 未公布 | 未公布 |
| 88 |
GLM-4.5
default
|
未公布 | 91.00 | 98.20 | 未公布 |
| 89 |
GLM-4.5-Air
default
|
未公布 | 89.40 | 98.10 | 未公布 |
| 90 |
OpenAI o3-mini (high)
default
|
未公布 | 87.00 | 97.90 | 未公布 |
| 91 |
OpenAI o1
default
|
未公布 | 79.20 | 96.40 | 未公布 |
| 92 |
Moonlight-16B-A3B-Instruct
default
|
未公布 | 未公布 | 未公布 | 77.40 |
| 93 |
Qwen2.5-3B
default
|
未公布 | 未公布 | 未公布 | 79.10 |
| 94 |
Llama3.1-8B-Instruct
default
|
未公布 | 未公布 | 未公布 | 82.40 |
| 95 |
Llama 4 Behemoth Instruct
default
|
未公布 | 未公布 | 95.00 | 未公布 |
| 96 |
Phi-4-mini-instruct (3.8B)
default
|
未公布 | 10.00 | 71.80 | 88.60 |
| 97 |
GPT-4o mini
default
|
未公布 | 未公布 | 未公布 | 91.30 |
| 98 |
Qwen2.5-72B
default
|
未公布 | 未公布 | 未公布 | 91.50 |
| 99 |
Qwen2.5-Max
default
|
未公布 | 未公布 | 未公布 | 94.50 |
| 100 |
Claude3-Opus
default
|
未公布 | 未公布 | 未公布 | 95.00 |
| 101 |
Qwen2.5-32B
default
|
未公布 | 未公布 | 未公布 | 95.90 |
| 102 |
Pangu Embedded
default
|
未公布 | 81.90 | 92.40 | 95.98 |
| 103 |
OpenAI o1-mini
default
|
未公布 | 63.60 | 90.00 | 未公布 |
| 104 |
Gemini 2.0 Pro Experimental
default
|
未公布 | 36.00 | 未公布 | 未公布 |
| 105 |
GPT-4.1 nano
default
|
未公布 | 29.40 | 未公布 | 未公布 |
| 106 |
Gemma 3 - 27B (IT)
default
|
未公布 | 25.30 | 未公布 | 未公布 |
| 107 |
Grok 3.5
default
|
未公布 | 未公布 | 未公布 | 未公布 |
| 108 |
GPT-4.1 mini
default
|
未公布 | 49.60 | 未公布 | 未公布 |
| 109 |
GLM-4-9B-Chat
default
|
未公布 | 76.40 | 未公布 | 未公布 |
| 110 |
Grok-3 - Reasoning Beta
default
|
未公布 | 93.30 | 未公布 | 未公布 |
| 111 |
Grok-3 mini - Reasoning
default
|
未公布 | 96.00 | 未公布 | 未公布 |
| 112 |
Claude 3.5 Sonnet New
default
|
未公布 | 16.00 | 78.00 | 未公布 |
| 113 |
DeepSeek-V3
default
|
未公布 | 39.00 | 87.80 | 未公布 |
| 114 |
Kimi k1.5 (Long-CoT)
default
|
未公布 | 未公布 | 96.20 | 未公布 |
| 115 |
|
未公布 | 50.00 | 90.40 | 未公布 |
| 116 |
QwQ-32B-Preview
default
|
未公布 | 50.00 | 90.60 | 未公布 |
| 117 |
GPT-4.5
default
|
未公布 | 36.70 | 90.70 | 未公布 |
| 118 |
QwQ-32B
default
|
未公布 | 79.50 | 91.00 | 未公布 |
| 119 |
DeepSeek-R1-Distill-Qwen-7B
default
|
未公布 | 53.30 | 91.40 | 未公布 |
| 120 |
DeepSeek-R1-Distill-Llama-70B
default
|
未公布 | 未公布 | 94.50 | 未公布 |
| 121 |
Kimi k1.5 (Short-CoT)
default
|
未公布 | 未公布 | 94.60 | 未公布 |
| 122 |
Grok 3 mini
default
|
未公布 | 40.00 | 未公布 | 未公布 |
| 123 |
Hunyuan-T1
default
|
未公布 | 78.20 | 96.20 | 未公布 |
| 124 |
|
未公布 | 80.00 | 96.20 | 未公布 |