GPQA 评测基准详情

1,153

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

问题数量 448

发布机构 CohereAI

评测类别综合评估

评测指标 Accuracy

支持语言英文

难度等级高难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

GPQA 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

DeepSeek-V3-0324 default

68.4

2025-03-24

6710.0

DeepSeek-V3-0324 default

68.4

GPQA得分 68.4

发布时间 2025-03-24

参数(亿) 6710.0

查看模型详情

Pangu Embedded default

68.0

2025-06-30

70.0

Pangu Embedded default

68.0

GPQA得分 68.0

发布时间 2025-06-30

参数(亿) 70.0

查看模型详情

Qwen3-8B default

62.0

2025-04-28

80.0

Qwen3-8B default

62.0

GPQA得分 62.0

发布时间 2025-04-28

参数(亿) 80.0

查看模型详情

DeepSeek-V3 default

59.1

2024-12-26

6810.0

DeepSeek-V3 default

59.1

GPQA得分 59.1

发布时间 2024-12-26

参数(亿) 6810.0

查看模型详情

GLM-4-9B-Chat default

58.5

2024-06-05

90.0

GLM-4-9B-Chat default

58.5

GPQA得分 58.5

发布时间 2024-06-05

参数(亿) 90.0

查看模型详情

Hunyuan-A13B-Instruct default

49.12

2025-06-27

800.0

Hunyuan-A13B-Instruct default

49.12

GPQA得分 49.12

发布时间 2025-06-27

参数(亿) 800.0

查看模型详情

Mistral-Small-3.1-24B-Instruct-2503 default

44.42

2025-03-17

240.0

Mistral-Small-3.1-24B-Instruct-2503 default

44.42

GPQA得分 44.42

发布时间 2025-03-17

参数(亿) 240.0

查看模型详情

Mistral-Small-3.2 default

44.22

2025-06-20

240.0

Mistral-Small-3.2 default

44.22

GPQA得分 44.22

发布时间 2025-06-20

参数(亿) 240.0

查看模型详情

Qwen3-Next default

43.43

2025-09-11

800.0

Qwen3-Next default

43.43

GPQA得分 43.43

发布时间 2025-09-11

参数(亿) 800.0

查看模型详情

GPT-4o mini default

40.2

2024-07-18

未知

#10

GPT-4o mini default

40.2

GPQA得分 40.2

发布时间 2024-07-18

参数(亿) 未知

查看模型详情

Claude 3.5 Haiku default

37.5

2024-10-22

未知

#11

Claude 3.5 Haiku default

37.5

GPQA得分 37.5

发布时间 2024-10-22

参数(亿) 未知

查看模型详情

Gemma 3 - 27B (IT) default

36.83

2025-03-12

270.0

#12

Gemma 3 - 27B (IT) default

36.83

GPQA得分 36.83

发布时间 2025-03-12

参数(亿) 270.0

查看模型详情

C4AI Aya Vision 32B default

34.38

2025-03-04

320.0

#13

C4AI Aya Vision 32B default

34.38

GPQA得分 34.38

发布时间 2025-03-04

参数(亿) 320.0

查看模型详情

A Graduate-Level Google-Proof Q&A Benchmark

模型模式说明

GPQA 大模型得分排行榜

GPQA详细排名数据表格