HLE 评测基准详情

2,350

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

HLE 大模型得分排行榜

数据来源:DataLearnerAI

HLE详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
OpenAI Logo
GPT-5.4 Pro 思考模式 High(工具)
58.7
2026-03-05
未知
HLE得分 58.7
发布时间 2026-03-05
参数(亿) 未知
查看模型详情
2
53.1
2026-02-05
未知
HLE得分 53.1
发布时间 2026-02-05
参数(亿) 未知
查看模型详情
3
Anthropic Logo
Claude Opus 4.6 深度思考模式(工具+联网)
53.0
2026-02-05
未知
HLE得分 53.0
发布时间 2026-02-05
参数(亿) 未知
查看模型详情
4
OpenAI Logo
GPT-5.4 极高强度思考(工具)
52.1
2026-03-05
未知
HLE得分 52.1
发布时间 2026-03-05
参数(亿) 未知
查看模型详情
5
51.4
2026-02-20
未知
HLE得分 51.4
发布时间 2026-02-20
参数(亿) 未知
查看模型详情
6
51.0
2025-11-06
10400.0
HLE得分 51.0
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
7
智谱AI Logo
GLM-5 default
50.4
2026-02-11
7440.0
HLE得分 50.4
发布时间 2026-02-11
参数(亿) 7440.0
查看模型详情
8
Moonshot AI Logo
Kimi K2.5 default
50.2
2026-01-27
10000.0
HLE得分 50.2
发布时间 2026-01-27
参数(亿) 10000.0
查看模型详情
9
OpenAI Logo
GPT-5.2 Pro default
50.0
2025-12-11
未知
HLE得分 50.0
发布时间 2025-12-11
参数(亿) 未知
查看模型详情
10
49.8
2026-01-26
10000.0
HLE得分 49.8
发布时间 2026-01-26
参数(亿) 10000.0
查看模型详情
11
49.0
2026-02-17
未知
HLE得分 49.0
发布时间 2026-02-17
参数(亿) 未知
查看模型详情
12
48.4
2026-02-13
未知
HLE得分 48.4
发布时间 2026-02-13
参数(亿) 未知
查看模型详情
13
48.3
2026-02-16
397.0
HLE得分 48.3
发布时间 2026-02-16
参数(亿) 397.0
查看模型详情
14
45.8
2025-11-18
未知
HLE得分 45.8
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
15
OpenAI Logo
GPT-5.2 default
45.5
2025-12-11
未知
HLE得分 45.5
发布时间 2025-12-11
参数(亿) 未知
查看模型详情
16
OpenAI Logo
GPT-5.2 极高强度思考(工具)
45.5
2025-12-11
未知
HLE得分 45.5
发布时间 2025-12-11
参数(亿) 未知
查看模型详情
17
44.9
2025-11-06
10400.0
HLE得分 44.9
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
18
xAI Logo
Grok 4 Heavy default
44.4
2025-07-10
未知
HLE得分 44.4
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
19
44.4
2026-02-20
未知
HLE得分 44.4
发布时间 2026-02-20
参数(亿) 未知
查看模型详情
20
43.5
2025-12-17
未知
HLE得分 43.5
发布时间 2025-12-17
参数(亿) 未知
查看模型详情
21
43.2
2025-11-25
未知
HLE得分 43.2
发布时间 2025-11-25
参数(亿) 未知
查看模型详情
22
智谱AI Logo
GLM-4.7 default
42.8
2025-12-22
3580.0
HLE得分 42.8
发布时间 2025-12-22
参数(亿) 3580.0
查看模型详情
23
OpenAI Logo
GPT-5.1 思考模式 High(工具+联网)
42.7
2025-11-12
未知
HLE得分 42.7
发布时间 2025-11-12
参数(亿) 未知
查看模型详情
24
OpenAI Logo
GPT-5.4 Pro 思考模式 High(无工具)
42.7
2026-03-05
未知
HLE得分 42.7
发布时间 2026-03-05
参数(亿) 未知
查看模型详情
25
OpenAI Logo
GPT-5-Pro default
42.0
2025-08-07
未知
HLE得分 42.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
26
41.0
2025-11-18
未知
HLE得分 41.0
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
27
40.0
2026-02-05
未知
HLE得分 40.0
发布时间 2026-02-05
参数(亿) 未知
查看模型详情
28
OpenAI Logo
GPT-5.4 极高强度思考(无工具)
39.8
2026-03-05
未知
HLE得分 39.8
发布时间 2026-03-05
参数(亿) 未知
查看模型详情
29
xAI Logo
Grok 4 default
38.6
2025-07-10
未知
HLE得分 38.6
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
30
xAI Logo
Grok 4 default
38.6
2025-07-10
未知
HLE得分 38.6
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
31
37.5
2025-11-18
未知
HLE得分 37.5
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
32
37.2
2025-11-18
未知
HLE得分 37.2
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
33
OpenAI Logo
GPT-5.2 Pro default
36.6
2025-12-11
未知
HLE得分 36.6
发布时间 2025-12-11
参数(亿) 未知
查看模型详情
34
OpenAI Logo
GPT-5 default
35.2
2025-08-07
未知
HLE得分 35.2
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
35
34.8
2025-08-01
未知
HLE得分 34.8
发布时间 2025-08-01
参数(亿) 未知
查看模型详情
36
OpenAI Logo
GPT-5.2 default
34.5
2025-12-11
未知
HLE得分 34.5
发布时间 2025-12-11
参数(亿) 未知
查看模型详情
37
OpenAI Logo
GPT-5.2 极高强度思考(无工具)
34.5
2025-12-11
未知
HLE得分 34.5
发布时间 2025-12-11
参数(亿) 未知
查看模型详情
38
33.7
2025-12-17
未知
HLE得分 33.7
发布时间 2025-12-17
参数(亿) 未知
查看模型详情
39
33.6
2025-09-30
未知
HLE得分 33.6
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
40
33.2
2026-02-17
未知
HLE得分 33.2
发布时间 2026-02-17
参数(亿) 未知
查看模型详情
41
30.8
2025-11-25
未知
HLE得分 30.8
发布时间 2025-11-25
参数(亿) 未知
查看模型详情
42
OpenAI Logo
GPT-5-Pro default
30.7
2025-08-07
未知
HLE得分 30.7
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
43
30.6
2025-12-01
未知
HLE得分 30.6
发布时间 2025-12-01
参数(亿) 未知
查看模型详情
44
智谱AI Logo
GLM-5 default
30.5
2026-02-11
7440.0
HLE得分 30.5
发布时间 2026-02-11
参数(亿) 7440.0
查看模型详情
45
智谱AI Logo
GLM-4.6 default
30.4
2025-09-30
3550.0
HLE得分 30.4
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
46
30.2
2026-01-26
10000.0
HLE得分 30.2
发布时间 2026-01-26
参数(亿) 10000.0
查看模型详情
47
Moonshot AI Logo
Kimi K2.5 default
30.1
2026-01-27
10000.0
HLE得分 30.1
发布时间 2026-01-27
参数(亿) 10000.0
查看模型详情
48
28.7
2026-02-16
397.0
HLE得分 28.7
发布时间 2026-02-16
参数(亿) 397.0
查看模型详情
49
阿里巴巴 Logo
Qwen3.5-397B-A17B 思考模式(无工具)
28.7
2026-02-16
397.0
HLE得分 28.7
发布时间 2026-02-16
参数(亿) 397.0
查看模型详情
50
OpenAI Logo
GPT-5.1 default
26.5
2025-11-12
未知
HLE得分 26.5
发布时间 2025-11-12
参数(亿) 未知
查看模型详情
51
OpenAI Logo
GPT-5.1 思考模式 High(无工具)
25.7
2025-11-12
未知
HLE得分 25.7
发布时间 2025-11-12
参数(亿) 未知
查看模型详情
52
xAI Logo
Grok 4 default
25.4
2025-07-10
未知
HLE得分 25.4
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
53
25.1
2025-12-01
6710.0
HLE得分 25.1
发布时间 2025-12-01
参数(亿) 6710.0
查看模型详情
54
OpenAI Logo
GPT-5 default
24.8
2025-08-07
未知
HLE得分 24.8
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
55
智谱AI Logo
GLM-4.7 default
24.8
2025-12-22
3580.0
HLE得分 24.8
发布时间 2025-12-22
参数(亿) 3580.0
查看模型详情
56
23.9
2025-11-06
10400.0
HLE得分 23.9
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
57
MiniMaxAI Logo
M2.1 default
22.0
2025-12-23
2300.0
HLE得分 22.0
发布时间 2025-12-23
参数(亿) 2300.0
查看模型详情
58
Moonshot AI Logo
Kimi K2 0905 default
21.7
2025-09-05
10000.0
HLE得分 21.7
发布时间 2025-09-05
参数(亿) 10000.0
查看模型详情
59
21.7
2025-09-22
6710.0
HLE得分 21.7
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
60
21.6
2025-05-06
未知
HLE得分 21.6
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
61
21.6
2025-06-05
未知
HLE得分 21.6
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
62
OpenAI Logo
o3-pro default
21.0
2025-06-10
未知
HLE得分 21.0
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
63
OpenAI Logo
OpenAI o3 default
20.32
2025-04-16
未知
HLE得分 20.32
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
64
20.3
2025-09-29
6710.0
HLE得分 20.3
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
65
xAI Logo
Grok 4 Fast default
20.0
2025-09-19
未知
HLE得分 20.0
发布时间 2025-09-19
参数(亿) 未知
查看模型详情
66
19.8
2025-09-29
6710.0
HLE得分 19.8
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
67
MiniMaxAI Logo
MiniMax M2.5 default
19.4
2026-02-12
2290.0
HLE得分 19.4
发布时间 2026-02-12
参数(亿) 2290.0
查看模型详情
68
OpenAI Logo
GPT OSS 120B default
19.0
2025-08-06
117.0
HLE得分 19.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
69
18.8
2025-03-25
未知
HLE得分 18.8
发布时间 2025-03-25
参数(亿) 未知
查看模型详情
70
18.6
2026-02-05
未知
HLE得分 18.6
发布时间 2026-02-05
参数(亿) 未知
查看模型详情
71
18.2
2025-07-25
2350.0
HLE得分 18.2
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
72
18.2
2025-07-30
305.0
HLE得分 18.2
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
73
17.7
2025-04-16
未知
HLE得分 17.7
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
74
17.7
2025-05-28
6710.0
HLE得分 17.7
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
75
17.7
2025-09-30
未知
HLE得分 17.7
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
76
17.6
2025-11-19
未知
HLE得分 17.6
发布时间 2025-11-19
参数(亿) 未知
查看模型详情
77
OpenAI Logo
GPT OSS 20B default
17.3
2025-08-06
210.0
HLE得分 17.3
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
78
智谱AI Logo
GLM-4.6 default
17.2
2025-09-30
3550.0
HLE得分 17.2
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
79
15.9
2025-08-20
6710.0
HLE得分 15.9
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
80
15.2
2025-09-22
6710.0
HLE得分 15.2
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
81
OpenAI Logo
GPT OSS 120B default
14.9
2025-08-06
117.0
HLE得分 14.9
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
82
智谱AI Logo
GLM-4.5 default
14.4
2025-07-28
3550.0
HLE得分 14.4
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
83
14.4
2026-01-19
310.0
HLE得分 14.4
发布时间 2026-01-19
参数(亿) 310.0
查看模型详情
84
14.28
2025-04-16
未知
HLE得分 14.28
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
85
13.4
2025-01-31
未知
HLE得分 13.4
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
86
MiniMaxAI Logo
MiniMax M2 default
12.5
2025-10-27
2300.0
HLE得分 12.5
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
87
11.1
2025-09-05
未知
HLE得分 11.1
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
88
11.0
2025-04-17
未知
HLE得分 11.0
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
89
OpenAI Logo
GPT OSS 20B default
10.9
2025-08-06
210.0
HLE得分 10.9
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
90
10.7
2025-05-23
未知
HLE得分 10.7
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
91
智谱AI Logo
GLM-4.5-Air default
10.6
2025-07-28
1060.0
HLE得分 10.6
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
92
10.3
2025-02-25
未知
HLE得分 10.3
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
93
9.8
2025-07-29
305.0
HLE得分 9.8
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
94
Anthropic Logo
Haiku 4.5 default
9.7
2025-10-15
未知
HLE得分 9.7
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
95
9.6
2025-05-23
未知
HLE得分 9.6
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
96
OpenAI Logo
OpenAI o1 default
9.1
2024-12-05
未知
HLE得分 9.1
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
97
8.6
2025-09-29
6710.0
HLE得分 8.6
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
98
8.4
2025-04-17
未知
HLE得分 8.4
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
99
8.4
2025-06-16
4560.0
HLE得分 8.4
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
100
7.6
2025-04-28
2350.0
HLE得分 7.6
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
101
7.2
2025-06-16
4560.0
HLE得分 7.2
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
102
7.1
2025-09-30
未知
HLE得分 7.1
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
103
6.9
2025-06-17
未知
HLE得分 6.9
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
104
OpenAI Logo
GPT-5 default
6.3
2025-08-07
未知
HLE得分 6.3
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
105
6.1
2026-01-19
310.0
HLE得分 6.1
发布时间 2026-01-19
参数(亿) 310.0
查看模型详情
106
5.52
2025-05-23
未知
HLE得分 5.52
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
107
OpenAI Logo
GPT-4o default
5.3
2024-05-13
未知
HLE得分 5.3
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
108
5.2
2025-03-24
6710.0
HLE得分 5.2
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
109
智谱AI Logo
GLM-4.6 default
5.2
2025-09-30
3550.0
HLE得分 5.2
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
110
5.1
2024-12-11
未知
HLE得分 5.1
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
111
OpenAI Logo
GPT-5-mini default
5.0
2025-08-07
未知
HLE得分 5.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
112
Moonshot AI Logo
Kimi K2 default
4.7
2025-07-11
10000.0
HLE得分 4.7
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
113
Anthropic Logo
Haiku 4.5 default
4.3
2025-10-15
未知
HLE得分 4.3
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
114
OpenAI Logo
GPT-4.1 default
3.7
2025-04-14
未知
HLE得分 3.7
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
115
OpenAI Logo
GPT-5-mini default
0.0
2025-08-07
未知
HLE得分 0.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情