GDPval-AA 评测基准详情

262

OpenAI在2025年9月推出的GDPval基准，将焦点转向“具有经济价值的真实任务”，而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA，进一步引入了agentic（代理）能力评估和ELO排行榜，成为当前最受关注的“实用性”评测基准之一。

Gross Domestic Product Value - Artificial Analysis

衡量AI模型在对美国GDP贡献最大的行业中，完成知识型工作的能力

问题数量 1320

发布机构 OpenAI

评测类别生产力知识

评测指标 Accuracy

支持语言英文

难度等级高难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

GDPval-AA 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

1

Claude Opus 4.6 深度思考模式（工具+联网）

1606.0

2026-02-05

未知

#1

Claude Opus 4.6 深度思考模式（工具+联网）

1606.0

GDPval-AA得分 1606.0

发布时间 2026-02-05

参数(亿) 未知

查看模型详情

2

GPT-5.4 Pro 思考模式 High（工具）

82.0

2026-03-05

未知

#2

GPT-5.4 Pro 思考模式 High（工具）

82.0

GDPval-AA得分 82.0

发布时间 2026-03-05

参数(亿) 未知

查看模型详情

3

GPT-5.2 极高强度思考（无工具）

70.9

2025-12-11

未知

#3

GPT-5.2 极高强度思考（无工具）

70.9

GDPval-AA得分 70.9

发布时间 2025-12-11

参数(亿) 未知

查看模型详情

4

Claude Sonnet 4.6 default

57.0

2026-02-17

未知

#4

Claude Sonnet 4.6 default

57.0

GDPval-AA得分 57.0

发布时间 2026-02-17

参数(亿) 未知

查看模型详情

5

Claude Opus 4.6 default

55.0

2026-02-05

未知

#5

Claude Opus 4.6 default

55.0

GDPval-AA得分 55.0

发布时间 2026-02-05

参数(亿) 未知

查看模型详情

6

Claude Opus 4.6 default

54.0

2026-02-05

未知

#6

Claude Opus 4.6 default

54.0

GDPval-AA得分 54.0

发布时间 2026-02-05

参数(亿) 未知

查看模型详情

7

GLM-5 default

46.0

2026-02-11

7440.0

#7

GLM-5 default

46.0

GDPval-AA得分 46.0

发布时间 2026-02-11

参数(亿) 7440.0

查看模型详情

8

Kimi K2.5 default

40.0

2026-01-27

10000.0

#8

Kimi K2.5 default

40.0

GDPval-AA得分 40.0

发布时间 2026-01-27

参数(亿) 10000.0

查看模型详情

9

Claude Sonnet 4.5 default

39.0

2025-09-30

未知

#9

Claude Sonnet 4.5 default

39.0

GDPval-AA得分 39.0

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

10

MiniMax M2.5 default

36.0

2026-02-12

2290.0

#10

MiniMax M2.5 default

36.0

GDPval-AA得分 36.0

发布时间 2026-02-12

参数(亿) 2290.0

查看模型详情

11

Gemini 3.0 Pro (Preview 11-2025) default

35.0

2025-11-18

未知

#11

Gemini 3.0 Pro (Preview 11-2025) default

35.0

GDPval-AA得分 35.0

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

12

Claude Sonnet 4 default

33.0

2025-05-23

未知

#12

Claude Sonnet 4 default

33.0

GDPval-AA得分 33.0

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

13

Claude Sonnet 3.7 default

28.0

2025-02-25

未知

#13

Claude Sonnet 3.7 default

28.0

GDPval-AA得分 28.0

发布时间 2025-02-25

参数(亿) 未知

查看模型详情

14

Gemini 2.5-Pro default

22.0

2025-06-05

未知

#14

Gemini 2.5-Pro default

22.0

GDPval-AA得分 22.0

发布时间 2025-06-05

参数(亿) 未知

查看模型详情