Gemini 2.5-Pro

推理大模型

Gemini 2.5-Pro

发布时间: 2025-06-05

1,564

GitHub Hugging Face 在线体验

模型参数（Parameters）

未披露

最高上下文长度（Context Length）

1000K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

1000K tokens

最长输出结果

65536 tokens

模型类型

推理大模型

发布时间

2025-06-05

模型预文件大小

暂无数据

思考模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源 - 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://gemini.google.com/

官方介绍与博客

官方论文

Try the latest Gemini 2.5 Pro before general availability.

DataLearnerAI博客

Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型，最高支持200万上下文，全模态输入，推理大模型，LMArena排名第一

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	1.25 美元/100 万tokens ≤ 200K	10 美元/100 万tokens ≤ 200K
图片	1.25 美元/100 万tokens	--

缓存计费 Cache

模态	输入 Cache	输出 Cache
文本	0.125 美元/100 万tokens	--
图片	0.125 美元/100 万tokens	--

超上下文计费 Extended

模态	输入	输出
文本	2.5 美元/100 万tokens > 200K	15 美元/100 万tokens > 200K

Gemini 2.5-Pro模型在各大评测榜单的评分

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总模型数

GPQA Diamond default

86.40

28 / 161

MMLU Pro default

13 / 114

LiveBench default

71.92

13 / 52

ARC-AGI default

35 / 50

HLE default

21.60

60 / 115

ARC-AGI-2 default

4.90

33 / 42

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

SimpleQA default

9 / 44

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

LiveCodeBench default

77.10

22 / 104

SWE-bench Verified default

67.20

55 / 92

数学推理

共 9 项评测

评测名称 / 模式

得分

排名/总模型数

MATH-500 default

98.80

1 / 42

AIME 2024 default

9 / 62

AIME2025 default

44 / 108

IMO-ProofBench default

55.20

3 / 16

IMO 2024 default

2 / 10

IMO-ProofBench Advanced default

17.60

4 / 8

IMO 2025 default

15.20

3 / 9

FrontierMath default

21 / 58

FrontierMath - Tier 4 default

4.20

18 / 38

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

Creative Writing default

85.85

8 / 22

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

Terminal Bench 2.0 default

32.60

26 / 26

Terminal-Bench default

25.30

28 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

MMMU default

8 / 20

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

Simple Bench default

62.40

2 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

Aider-Polyglot default

83.10

2 / 26

τ²-Bench - Telecom default

31 / 34

Terminal Bench Hard default

13 / 14

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

IF Bench default

25 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

BrowseComp default

7.80

33 / 34

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

GDPval-AA default

14 / 14

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

AA-LCR default

7 / 13

发布机构

Google Deep Mind

查看发布机构详情

Gemini 2.5-Pro模型解读

----2025年6月17日更新：谷歌正式发布Gemini 2.5 Pro模型，其实就是本预览版模型，没有任何变化，只是去掉了Preview标签

Gemini-2.5-Pro-Preview-06-05是谷歌Gemini 2.5 Pro正式版前最后一个预览版本，该模型的训练知识截止到2025年1月份，与之前的版本一样，应该是后训练提升。官方表示，这个新版本在未来几周内将成为正式发布的稳定版本，为企业级规模的应用做好准备。

根据官方发布的信息，Gemini 2.5 Pro 在多个行业基准测试中展现了显著的性能跃升。在 LMArena 评估中，其 Elo 得分跃升了 24 点，以 1470 分保持领先地位。同时，在 WebDevArena 上的 Elo 得分也大幅提升了 35 点，以 1443 分位居榜首。

此外该模型在编码能力方面也表现出色，尤其在 Aider Polyglot 等高难度编码基准测试中处于领先。在评估模型数学、科学、知识和推理能力的 GPQA 和 Humanity's Last Exam (HLE) 等高难度基准测试中，Gemini 2.5 Pro 也展示了顶级的性能。基本都是业界最强的水平。

除了性能数据的提升，谷歌还表示，此次更新采纳了先前版本的用户反馈，对模型的风格和结构进行了改进，使其能够生成更具创造性和格式更优的回复。

开发者现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用升级后的 2.5 Pro 预览版。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯