排名	模型	AIME2025	AIME 2024	MATH-500	GSM8K	参数(亿)	开源情况
1	Step 3.5 Flash default	99.80	未公布	未公布	未公布	1,960	免费商用授权
2	Claude Opus 4.6 深度思考模式（无工具）	99.79	未公布	未公布	未公布	未知	不开源
3	Gemini 3.0 Flash default	99.70	未公布	未公布	未公布	未知	不开源
4	GPT-5 default	99.60	未公布	未公布	未公布	未知	不开源
5	OpenAI o4 - mini default	99.50	98.70	未公布	未公布	未知	不开源
6	Gemini 2.5 Deep Think default	99.20	未公布	未公布	未公布	未知	不开源
7	Grok 4 default	98.80	未公布	未公布	未公布	未知	不开源
8	GPT OSS 20B default	98.70	96.00	未公布	未公布	210	免费商用授权
9	GLM-4.6 default	98.60	未公布	未公布	未公布	3,550	免费商用授权
10	GPT OSS 120B default	97.90	96.60	未公布	未公布	117	免费商用授权
11	Haiku 4.5 default	96.30	未公布	未公布	未公布	未知	不开源
12	Kimi K2.5 default	96.10	未公布	未公布	未公布	10,000	免费商用授权
13	DeepSeek V3.2 Speciale default	96.00	未公布	未公布	未公布	未知	免费商用授权
14	GLM-4.7 default	95.70	未公布	未公布	未公布	3,580	免费商用授权
15	Gemini 3.0 Pro (Preview 11-2025) default	95.00	未公布	未公布	未公布	未知	不开源
16	GPT-5.1 default	94.00	未公布	未公布	未公布	未知	不开源
17	GPT-5.1 思考模式 High（无工具）	94.00	未公布	未公布	未公布	未知	不开源
18	DeepSeek V3.2 default	93.10	未公布	未公布	未公布	6,710	免费商用授权
19	o3-pro default	93.00	93.00	未公布	未公布	未知	不开源
20	Qwen3-235B-A22B-Thinking-2507 default	92.30	未公布	未公布	未公布	2,350	免费商用授权
21	Qwen3-235B-A22B-Thinking default	92.30	未公布	未公布	未公布	305	免费商用授权
22	Grok 4 Fast default	92.00	未公布	未公布	未公布	未知	不开源
23	GLM-4.7-Flash default	91.60	未公布	未公布	未公布	310	免费商用授权
24	DeepSeek-V3.1 Terminus default	90.00	未公布	未公布	未公布	6,710	免费商用授权
25	DeepSeek V3.2-Exp default	89.30	未公布	未公布	未公布	6,710	免费商用授权
26	Grok 4.1 Fast default	89.00	未公布	未公布	未公布	未知	不开源
27	OpenAI o3 default	88.90	91.60	98.10	未公布	未知	不开源
28	DeepSeek-V3.1 default	88.40	93.10	未公布	未公布	6,710	免费商用授权
29	Gemini 2.5-Pro default	88.00	92.00	98.80	未公布	未知	不开源
30	DeepSeek-R1-0528 default	87.50	91.40	98.00	未公布	6,710	免费商用授权
31	Gemini 2.5 Pro Experimental 03-25 default	86.90	92.00	未公布	未公布	未知	不开源
32	OpenAI o3-mini default	86.50	60.00	95.80	未公布	未知	不开源
33	MiniMax M2.5 default	86.30	未公布	未公布	未公布	2,290	免费商用授权
34	Intern-S1 default	86.00	未公布	未公布	未公布	2,410	免费商用授权
35	Claude Sonnet 4 default	85.00	43.40	未公布	未公布	未知	不开源
36	Gemini-2.5-Pro-Preview-05-06 default	83.00	92.00	98.80	未公布	未知	不开源
37	Step3 default	82.90	未公布	未公布	未公布	3,210	免费商用授权
38	Qwen3-235B-A22B default	81.50	85.70	98.00	96.40	2,350	免费商用授权
39	Qwen3-4B-Thinking-2507 default	81.30	未公布	未公布	未公布	40	免费商用授权
40	M2.1 default	81.00	未公布	未公布	未公布	2,300	免费商用授权
41	Qwen3 Max (Preview) default	80.60	未公布	未公布	未公布	未知	不开源
42	MiniMax M2 default	78.00	未公布	未公布	未公布	2,300	免费商用授权
43	Claude Opus 4.1 default	78.00	未公布	未公布	未公布	未知	不开源
44	Grok 3 default	77.10	84.20	未公布	未公布	未知	不开源
45	MiniMax-M1-80k default	76.90	86.00	96.80	未公布	4,560	免费商用授权
46	Hunyuan-A13B-Instruct default	76.80	87.30	未公布	91.83	800	免费商用授权
47	Claude Opus 4 default	75.50	76.00	98.20	未公布	未知	不开源
48	Hunyuan-7B default	75.30	81.10	93.70	未公布	70	免费商用授权
49	Kimi K2 0905 default	75.20	未公布	未公布	未公布	10,000	免费商用授权
50	MiniMax-M1-40k default	74.60	83.30	96.00	未公布	4,560	免费商用授权
51	Qwen3-32B default	72.90	81.40	97.20	未公布	320	免费商用授权
52	Gemini 2.5 Flash default	72.00	88.00	未公布	未公布	未知	不开源
53	Qwen3-235B-A22B-2507 default	70.30	未公布	未公布	未公布	2,350	免费商用授权
54	DeepSeek-R1 default	70.00	79.80	97.30	未公布	6,710	免费商用授权
55	Qwen3-Next default	69.50	未公布	未公布	90.30	800	免费商用授权
56	Pangu Pro MoE default	68.10	79.20	96.80	未公布	719	免费商用授权
57	Qwen3-8B default	67.30	79.40	97.40	未公布	80	免费商用授权
58	Magistral-Medium-2506 default	64.95	73.59	未公布	未公布	未知	不开源
59	Gemini 2.5 Flash-Lite default	63.10	未公布	未公布	未公布	未知	不开源
60	Magistral-Small-2506 default	62.76	70.68	未公布	未公布	240	免费商用授权
61	Qwen3-30B-A3B-2507 default	61.30	未公布	未公布	未公布	305	免费商用授权
62	Claude Sonnet 3.7 default	54.80	23.30	82.20	未公布	未知	不开源
63	Kimi K2 default	54.00	69.60	97.40	未公布	10,000	免费商用授权
64	DeepSeek-V3-0324 default	47.70	59.40	94.00	96.30	6,710	免费商用授权
65	Qwen3-4B-2507 default	47.40	未公布	未公布	未公布	40	免费商用授权
66	GPT-5-mini default	47.00	未公布	未公布	未公布	未知	不开源
67	GPT-4o default	42.10	9.30	75.90	未公布	未知	不开源
68	GPT-4.1 default	36.70	48.10	92.80	95.90	未知	不开源
69	ERNIE-4.5-VL-424B-A47B-Base default	35.10	未公布	未公布	未公布	4,240	免费商用授权
70	ERNIE-4.5-300B-A47B default	35.10	54.80	96.40	96.60	3,000	免费商用授权
71	Gemini 2.0 Flash Experimental default	29.70	未公布	未公布	未公布	未知	不开源
72	GPT-4o(2025-03-27) default	26.70	未公布	未公布	未公布	未知	不开源
73	Qwen3-30B-A3B default	21.60	未公布	未公布	未公布	305	免费商用授权
74	Grok 4 Heavy default	100.00	未公布	未公布	未公布	未知	不开源
75	GPT-5-Pro default	100.00	未公布	未公布	未公布	未知	不开源
76	Claude Sonnet 4.5 default	100.00	未公布	未公布	未公布	未知	不开源
77	Kimi K2 Thinking default	100.00	未公布	未公布	未公布	10,400	免费商用授权
78	GPT-5.2 default	100.00	未公布	未公布	未公布	未知	不开源
79	GPT-5.2 思考模式（无工具）	100.00	未公布	未公布	未公布	未知	不开源
80	Gemma 2 - 9B default	未公布	未公布	未公布	70.70	90	免费商用授权
81	Qwen2.5-7B default	未公布	未公布	未公布	85.40	70	免费商用授权
82	Llama3.1-8B default	未公布	未公布	未公布	55.30	80	免费商用授权
83	Mistral-7B-Instruct-v0.3 default	未公布	未公布	未公布	36.20	70	免费商用授权
84	Llama-3.2-3B default	未公布	未公布	未公布	34.00	32	免费商用授权
85	Gemini 1.5 Pro default	未公布	未公布	未公布	未公布	未知	不开源
86	Llama3.1-405B Instruct default	未公布	未公布	未公布	未公布	4,050	免费商用授权
87	Amazon Nova Pro default	未公布	未公布	未公布	未公布	未知	不开源
88	GLM-4.5 default	未公布	91.00	98.20	未公布	3,550	免费商用授权
89	GLM-4.5-Air default	未公布	89.40	98.10	未公布	1,060	免费商用授权
90	OpenAI o3-mini (high) default	未公布	87.00	97.90	未公布	未知	不开源
91	OpenAI o1 default	未公布	79.20	96.40	未公布	未知	不开源
92	Moonlight-16B-A3B-Instruct default	未公布	未公布	未公布	77.40	160	免费商用授权
93	Qwen2.5-3B default	未公布	未公布	未公布	79.10	30	免费商用授权
94	Llama3.1-8B-Instruct default	未公布	未公布	未公布	82.40	80	免费商用授权
95	Llama 4 Behemoth Instruct default	未公布	未公布	95.00	未公布	20,000	免费商用授权
96	Phi-4-mini-instruct (3.8B) default	未公布	10.00	71.80	88.60	38	免费商用授权
97	GPT-4o mini default	未公布	未公布	未公布	91.30	未知	不开源
98	Qwen2.5-72B default	未公布	未公布	未公布	91.50	727	免费商用授权
99	Qwen2.5-Max default	未公布	未公布	未公布	94.50	未知	不开源
100	Claude3-Opus default	未公布	未公布	未公布	95.00	未知	不开源
101	Qwen2.5-32B default	未公布	未公布	未公布	95.90	320	免费商用授权
102	Pangu Embedded default	未公布	81.90	92.40	95.98	70	免费商用授权
103	OpenAI o1-mini default	未公布	63.60	90.00	未公布	未知	不开源
104	Gemini 2.0 Pro Experimental default	未公布	36.00	未公布	未公布	未知	不开源
105	GPT-4.1 nano default	未公布	29.40	未公布	未公布	未知	不开源
106	Gemma 3 - 27B (IT) default	未公布	25.30	未公布	未公布	270	免费商用授权
107	Grok 3.5 default	未公布	未公布	未公布	未公布	未知	不开源
108	GPT-4.1 mini default	未公布	49.60	未公布	未公布	未知	不开源
109	GLM-4-9B-Chat default	未公布	76.40	未公布	未公布	90	免费商用授权
110	Grok-3 - Reasoning Beta default	未公布	93.30	未公布	未公布	未知	不开源
111	Grok-3 mini - Reasoning default	未公布	96.00	未公布	未公布	未知	不开源
112	Claude 3.5 Sonnet New default	未公布	16.00	78.00	未公布	未知	不开源
113	DeepSeek-V3 default	未公布	39.00	87.80	未公布	6,810	免费商用授权
114	Kimi k1.5 (Long-CoT) default	未公布	未公布	96.20	未公布	未知	不开源
115	Phi-4-instruct (reasoning-trained) default	未公布	50.00	90.40	未公布	38	不开源
116	QwQ-32B-Preview default	未公布	50.00	90.60	未公布	320	免费商用授权
117	GPT-4.5 default	未公布	36.70	90.70	未公布	未知	不开源
118	QwQ-32B default	未公布	79.50	91.00	未公布	325	免费商用授权
119	DeepSeek-R1-Distill-Qwen-7B default	未公布	53.30	91.40	未公布	70	免费商用授权
120	DeepSeek-R1-Distill-Llama-70B default	未公布	未公布	94.50	未公布	700	免费商用授权
121	Kimi k1.5 (Short-CoT) default	未公布	未公布	94.60	未公布	未知	不开源
122	Grok 3 mini default	未公布	40.00	未公布	未公布	未知	不开源
123	Hunyuan-T1 default	未公布	78.20	96.20	未公布	未知	不开源
124	Claude Sonnet 3.7-64K Extended Thinking default	未公布	80.00	96.20	未公布	未知	不开源

Step 3.5 Flash default

AIME2025 (数学推理) 99.80

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 1,960

开源情况免费商用授权

查看模型详情

Claude Opus 4.6 深度思考模式（无工具）

AIME2025 (数学推理) 99.79

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 3.0 Flash default

AIME2025 (数学推理) 99.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

GPT-5 default

AIME2025 (数学推理) 99.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

OpenAI o4 - mini default

AIME2025 (数学推理) 99.50

AIME 2024 (数学推理) 98.70

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 2.5 Deep Think default

AIME2025 (数学推理) 99.20

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Grok 4 default

AIME2025 (数学推理) 98.80

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

GPT OSS 20B default

AIME2025 (数学推理) 98.70

AIME 2024 (数学推理) 96.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 210

开源情况免费商用授权

查看模型详情

GLM-4.6 default

AIME2025 (数学推理) 98.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#10

GPT OSS 120B default

AIME2025 (数学推理) 97.90

AIME 2024 (数学推理) 96.60

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 117

开源情况免费商用授权

查看模型详情

#11

Haiku 4.5 default

AIME2025 (数学推理) 96.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#12

Kimi K2.5 default

AIME2025 (数学推理) 96.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#13

DeepSeek V3.2 Speciale default

AIME2025 (数学推理) 96.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况免费商用授权

查看模型详情

#14

GLM-4.7 default

AIME2025 (数学推理) 95.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,580

开源情况免费商用授权

查看模型详情

#15

Gemini 3.0 Pro (Preview 11-2025) default

AIME2025 (数学推理) 95.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#16

GPT-5.1 default

AIME2025 (数学推理) 94.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#17

GPT-5.1 思考模式 High（无工具）

AIME2025 (数学推理) 94.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#18

DeepSeek V3.2 default

AIME2025 (数学推理) 93.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#19

o3-pro default

AIME2025 (数学推理) 93.00

AIME 2024 (数学推理) 93.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#20

Qwen3-235B-A22B-Thinking-2507 default

AIME2025 (数学推理) 92.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#21

Qwen3-235B-A22B-Thinking default

AIME2025 (数学推理) 92.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#22

Grok 4 Fast default

AIME2025 (数学推理) 92.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#23

GLM-4.7-Flash default

AIME2025 (数学推理) 91.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 310

开源情况免费商用授权

查看模型详情

#24

DeepSeek-V3.1 Terminus default

AIME2025 (数学推理) 90.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#25

DeepSeek V3.2-Exp default

AIME2025 (数学推理) 89.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#26

Grok 4.1 Fast default

AIME2025 (数学推理) 89.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#27

OpenAI o3 default

AIME2025 (数学推理) 88.90

AIME 2024 (数学推理) 91.60

MATH-500 (数学推理) 98.10

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#28

DeepSeek-V3.1 default

AIME2025 (数学推理) 88.40

AIME 2024 (数学推理) 93.10

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#29

Gemini 2.5-Pro default

AIME2025 (数学推理) 88.00

AIME 2024 (数学推理) 92.00

MATH-500 (数学推理) 98.80

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#30

DeepSeek-R1-0528 default

AIME2025 (数学推理) 87.50

AIME 2024 (数学推理) 91.40

MATH-500 (数学推理) 98.00

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#31

Gemini 2.5 Pro Experimental 03-25 default

AIME2025 (数学推理) 86.90

AIME 2024 (数学推理) 92.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#32

OpenAI o3-mini default

AIME2025 (数学推理) 86.50

AIME 2024 (数学推理) 60.00

MATH-500 (数学推理) 95.80

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#33

MiniMax M2.5 default

AIME2025 (数学推理) 86.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,290

开源情况免费商用授权

查看模型详情

#34

Intern-S1 default

AIME2025 (数学推理) 86.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,410

开源情况免费商用授权

查看模型详情

#35

Claude Sonnet 4 default

AIME2025 (数学推理) 85.00

AIME 2024 (数学推理) 43.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#36

Gemini-2.5-Pro-Preview-05-06 default

AIME2025 (数学推理) 83.00

AIME 2024 (数学推理) 92.00

MATH-500 (数学推理) 98.80

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#37

Step3 default

AIME2025 (数学推理) 82.90

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,210

开源情况免费商用授权

查看模型详情

#38

Qwen3-235B-A22B default

AIME2025 (数学推理) 81.50

AIME 2024 (数学推理) 85.70

MATH-500 (数学推理) 98.00

GSM8K (数学推理) 96.40

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#39

Qwen3-4B-Thinking-2507 default

AIME2025 (数学推理) 81.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 40

开源情况免费商用授权

查看模型详情

#40

M2.1 default

AIME2025 (数学推理) 81.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,300

开源情况免费商用授权

查看模型详情

#41

Qwen3 Max (Preview) default

AIME2025 (数学推理) 80.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#42

MiniMax M2 default

AIME2025 (数学推理) 78.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,300

开源情况免费商用授权

查看模型详情

#43

Claude Opus 4.1 default

AIME2025 (数学推理) 78.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#44

Grok 3 default

AIME2025 (数学推理) 77.10

AIME 2024 (数学推理) 84.20

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#45

MiniMax-M1-80k default

AIME2025 (数学推理) 76.90

AIME 2024 (数学推理) 86.00

MATH-500 (数学推理) 96.80

GSM8K (数学推理) 未公布

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

#46

Hunyuan-A13B-Instruct default

AIME2025 (数学推理) 76.80

AIME 2024 (数学推理) 87.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 91.83

参数(亿) 800

开源情况免费商用授权

查看模型详情

#47

Claude Opus 4 default

AIME2025 (数学推理) 75.50

AIME 2024 (数学推理) 76.00

MATH-500 (数学推理) 98.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#48

Hunyuan-7B default

AIME2025 (数学推理) 75.30

AIME 2024 (数学推理) 81.10

MATH-500 (数学推理) 93.70

GSM8K (数学推理) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

#49

Kimi K2 0905 default

AIME2025 (数学推理) 75.20

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#50

MiniMax-M1-40k default

AIME2025 (数学推理) 74.60

AIME 2024 (数学推理) 83.30

MATH-500 (数学推理) 96.00

GSM8K (数学推理) 未公布

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

#51

Qwen3-32B default

AIME2025 (数学推理) 72.90

AIME 2024 (数学推理) 81.40

MATH-500 (数学推理) 97.20

GSM8K (数学推理) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

#52

Gemini 2.5 Flash default

AIME2025 (数学推理) 72.00

AIME 2024 (数学推理) 88.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#53

Qwen3-235B-A22B-2507 default

AIME2025 (数学推理) 70.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#54

DeepSeek-R1 default

AIME2025 (数学推理) 70.00

AIME 2024 (数学推理) 79.80

MATH-500 (数学推理) 97.30

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#55

Qwen3-Next default

AIME2025 (数学推理) 69.50

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 90.30

参数(亿) 800

开源情况免费商用授权

查看模型详情

#56

Pangu Pro MoE default

AIME2025 (数学推理) 68.10

AIME 2024 (数学推理) 79.20

MATH-500 (数学推理) 96.80

GSM8K (数学推理) 未公布

参数(亿) 719

开源情况免费商用授权

查看模型详情

#57

Qwen3-8B default

AIME2025 (数学推理) 67.30

AIME 2024 (数学推理) 79.40

MATH-500 (数学推理) 97.40

GSM8K (数学推理) 未公布

参数(亿) 80

开源情况免费商用授权

查看模型详情

#58

Magistral-Medium-2506 default

AIME2025 (数学推理) 64.95

AIME 2024 (数学推理) 73.59

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#59

Gemini 2.5 Flash-Lite default

AIME2025 (数学推理) 63.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#60

Magistral-Small-2506 default

AIME2025 (数学推理) 62.76

AIME 2024 (数学推理) 70.68

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 240

开源情况免费商用授权

查看模型详情

#61

Qwen3-30B-A3B-2507 default

AIME2025 (数学推理) 61.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#62

Claude Sonnet 3.7 default

AIME2025 (数学推理) 54.80

AIME 2024 (数学推理) 23.30

MATH-500 (数学推理) 82.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#63

Kimi K2 default

AIME2025 (数学推理) 54.00

AIME 2024 (数学推理) 69.60

MATH-500 (数学推理) 97.40

GSM8K (数学推理) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#64

DeepSeek-V3-0324 default

AIME2025 (数学推理) 47.70

AIME 2024 (数学推理) 59.40

MATH-500 (数学推理) 94.00

GSM8K (数学推理) 96.30

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#65

Qwen3-4B-2507 default

AIME2025 (数学推理) 47.40

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 40

开源情况免费商用授权

查看模型详情

#66

GPT-5-mini default

AIME2025 (数学推理) 47.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#67

GPT-4o default

AIME2025 (数学推理) 42.10

AIME 2024 (数学推理) 9.30

MATH-500 (数学推理) 75.90

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#68

GPT-4.1 default

AIME2025 (数学推理) 36.70

AIME 2024 (数学推理) 48.10

MATH-500 (数学推理) 92.80

GSM8K (数学推理) 95.90

参数(亿) 未知

开源情况不开源

查看模型详情

#69

ERNIE-4.5-VL-424B-A47B-Base default

AIME2025 (数学推理) 35.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 4,240

开源情况免费商用授权

查看模型详情

#70

ERNIE-4.5-300B-A47B default

AIME2025 (数学推理) 35.10

AIME 2024 (数学推理) 54.80

MATH-500 (数学推理) 96.40

GSM8K (数学推理) 96.60

参数(亿) 3,000

开源情况免费商用授权

查看模型详情

#71

Gemini 2.0 Flash Experimental default

AIME2025 (数学推理) 29.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#72

GPT-4o(2025-03-27) default

AIME2025 (数学推理) 26.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#73

Qwen3-30B-A3B default

AIME2025 (数学推理) 21.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#74

Grok 4 Heavy default

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#75

GPT-5-Pro default

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#76

Claude Sonnet 4.5 default

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#77

Kimi K2 Thinking default

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,400

开源情况免费商用授权

查看模型详情

#78

GPT-5.2 default

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#79

GPT-5.2 思考模式（无工具）

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#80

Gemma 2 - 9B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 70.70

参数(亿) 90

开源情况免费商用授权

查看模型详情

#81

Qwen2.5-7B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 85.40

参数(亿) 70

开源情况免费商用授权

查看模型详情

#82

Llama3.1-8B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 55.30

参数(亿) 80

开源情况免费商用授权

查看模型详情

#83

Mistral-7B-Instruct-v0.3 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 36.20

参数(亿) 70

开源情况免费商用授权

查看模型详情

#84

Llama-3.2-3B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 34.00

参数(亿) 32

开源情况免费商用授权

查看模型详情

#85

Gemini 1.5 Pro default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#86

Llama3.1-405B Instruct default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 4,050

开源情况免费商用授权

查看模型详情

#87

Amazon Nova Pro default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#88

GLM-4.5 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 91.00

MATH-500 (数学推理) 98.20

GSM8K (数学推理) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#89

GLM-4.5-Air default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 89.40

MATH-500 (数学推理) 98.10

GSM8K (数学推理) 未公布

参数(亿) 1,060

开源情况免费商用授权

查看模型详情

#90

OpenAI o3-mini (high) default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 87.00

MATH-500 (数学推理) 97.90

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#91

OpenAI o1 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 79.20

MATH-500 (数学推理) 96.40

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#92

Moonlight-16B-A3B-Instruct default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 77.40

参数(亿) 160

开源情况免费商用授权

查看模型详情

#93

Qwen2.5-3B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 79.10

参数(亿) 30

开源情况免费商用授权

查看模型详情

#94

Llama3.1-8B-Instruct default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 82.40

参数(亿) 80

开源情况免费商用授权

查看模型详情

#95

Llama 4 Behemoth Instruct default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 95.00

GSM8K (数学推理) 未公布

参数(亿) 20,000

开源情况免费商用授权

查看模型详情

#96

Phi-4-mini-instruct (3.8B) default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 10.00

MATH-500 (数学推理) 71.80

GSM8K (数学推理) 88.60

参数(亿) 38

开源情况免费商用授权

查看模型详情

#97

GPT-4o mini default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 91.30

参数(亿) 未知

开源情况不开源

查看模型详情

#98

Qwen2.5-72B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 91.50

参数(亿) 727

开源情况免费商用授权

查看模型详情

#99

Qwen2.5-Max default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 94.50

参数(亿) 未知

开源情况不开源

查看模型详情

#100

Claude3-Opus default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 95.00

参数(亿) 未知

开源情况不开源

查看模型详情

#101

Qwen2.5-32B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 95.90

参数(亿) 320

开源情况免费商用授权

查看模型详情

#102

Pangu Embedded default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 81.90

MATH-500 (数学推理) 92.40

GSM8K (数学推理) 95.98

参数(亿) 70

开源情况免费商用授权

查看模型详情

#103

OpenAI o1-mini default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 63.60

MATH-500 (数学推理) 90.00

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#104

Gemini 2.0 Pro Experimental default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 36.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#105

GPT-4.1 nano default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 29.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#106

Gemma 3 - 27B (IT) default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 25.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 270

开源情况免费商用授权

查看模型详情

#107

Grok 3.5 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#108

GPT-4.1 mini default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 49.60

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#109

GLM-4-9B-Chat default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 76.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 90

开源情况免费商用授权

查看模型详情

#110

Grok-3 - Reasoning Beta default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 93.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#111

Grok-3 mini - Reasoning default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 96.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#112

Claude 3.5 Sonnet New default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 16.00

MATH-500 (数学推理) 78.00

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#113

DeepSeek-V3 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 39.00

MATH-500 (数学推理) 87.80

GSM8K (数学推理) 未公布

参数(亿) 6,810

开源情况免费商用授权

查看模型详情

#114

Kimi k1.5 (Long-CoT) default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#115

Phi-4-instruct (reasoning-trained) default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 50.00

MATH-500 (数学推理) 90.40

GSM8K (数学推理) 未公布

参数(亿) 38

开源情况不开源

查看模型详情

#116

QwQ-32B-Preview default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 50.00

MATH-500 (数学推理) 90.60

GSM8K (数学推理) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

#117

GPT-4.5 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 36.70

MATH-500 (数学推理) 90.70

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#118

QwQ-32B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 79.50

MATH-500 (数学推理) 91.00

GSM8K (数学推理) 未公布

参数(亿) 325

开源情况免费商用授权

查看模型详情

#119

DeepSeek-R1-Distill-Qwen-7B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 53.30

MATH-500 (数学推理) 91.40

GSM8K (数学推理) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

#120

DeepSeek-R1-Distill-Llama-70B default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 94.50

GSM8K (数学推理) 未公布

参数(亿) 700

开源情况免费商用授权

查看模型详情

#121

Kimi k1.5 (Short-CoT) default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 94.60

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#122

Grok 3 mini default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 40.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#123

Hunyuan-T1 default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 78.20

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#124

Claude Sonnet 3.7-64K Extended Thinking default

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 80.00

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

大模型数学推理能力评测排行榜