GP

GPT-5.4

多模态大模型

GPT-5.4

发布时间: 2026-03-05

199
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
1M
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

1M tokens

最长输出结果

128000 tokens

模型类型

多模态大模型

发布时间

2026-03-05

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

GPT-5.4模型在各大评测榜单的评分

综合评估

共 11 项评测
ARC-AGI 常规模式(无工具)
93.70
5 / 50
ARC-AGI 极高强度思考(无工具)
93.70
5 / 50
GPQA Diamond 极高强度思考(无工具)
92.80
5 / 161
ARC-AGI 思考模式 Medium(无工具)
86.20
10 / 50
ARC-AGI-2 常规模式(无工具)
77.10
4 / 42
ARC-AGI-2 极高强度思考(无工具)
74
6 / 42
ARC-AGI 思考模式 Low(无工具)
68.20
19 / 50
ARC-AGI-2 思考模式 Medium(无工具)
55.40
13 / 42
HLE 极高强度思考(工具)
52.10
4 / 115
HLE 极高强度思考(无工具)
39.80
28 / 115
ARC-AGI-2 思考模式 Low(无工具)
29.20
21 / 42

数学推理

共 2 项评测
FrontierMath 极高强度思考(无工具)
47.60
3 / 58
FrontierMath - Tier 4 极高强度思考(无工具)
27.10
4 / 38

编程与软件工程

共 1 项评测
SWE-Bench Pro - Public 极高强度思考(无工具)
57.70
1 / 17

Agent能力评测

共 2 项评测
τ²-Bench - Telecom 极高强度思考(工具)
98.90
4 / 34
τ²-Bench - Telecom 常规模式(工具)
64.30
29 / 34

AI Agent - 信息收集

共 1 项评测
BrowseComp 极高强度思考(工具)
82.70
7 / 34

AI Agent - 工具使用

共 2 项评测
Terminal Bench 2.0 极高强度思考(工具)
75.10
2 / 26
OSWorld-Verified 极高强度思考(工具)
75
1 / 9

发布机构

GPT-5.4模型解读

GPT-5.4模型概述

GPT-5.4 是 OpenAI 于 2026 年 3 月发布的 GPT 系列大型语言模型版本之一。该模型定位为面向专业工作场景的前沿基础模型,旨在提升复杂知识任务、软件开发以及长上下文分析等场景中的能力与效率。公开报道指出,GPT-5.4 在多个能力维度上进行了优化,包括上下文处理能力、推理效率以及复杂任务完成能力。

在产品定位上,GPT-5.4 属于 GPT-5 系列的迭代版本,并在发布时提供多个不同配置的变体,包括面向推理任务的 GPT-5.4 Thinking 版本以及面向企业级生产环境的 GPT-5.4 Pro 版本。

架构与技术规格

截至目前,OpenAI 尚未公开 GPT-5.4 的完整模型架构细节,例如参数规模或训练数据规模。与 GPT 系列的其他商业模型类似,该模型采用专有架构并未开源。

公开资料表明,该模型在 API 版本中支持最高约 1,000,000 tokens 的上下文窗口,这使其能够处理远超传统语言模型的长文档输入,例如大型代码库、研究文献或长周期任务上下文。

社区分析及部分技术报道还指出,开发过程中的代码提交信息曾显示更大规模上下文窗口的实验版本,相关讨论中提到最高可能达到约 2M tokens 的实验能力,但该信息并未在官方发布文档中确认。

核心能力与支持模态

GPT-5.4 是一类多模态基础模型,能够处理文本和图像等多种输入形式。相关技术更新提到,该模型支持更高精度的图像输入处理能力,例如在 API 中支持直接传入原始图像字节进行分析,这对于需要高分辨率视觉理解的应用场景具有重要意义。

在文本能力方面,该模型针对复杂知识工作任务进行了优化,例如多步骤推理、软件开发辅助、信息检索与整合等场景。

性能与基准评测

公开报道显示,GPT-5.4 在多个内部评测任务中取得了较高表现。例如在面向知识工作任务的 GDPval 评测中取得约 83% 的成绩,并在 OSWorld-Verified 和 WebArena Verified 等计算机使用相关评测中取得新的记录成绩。

此外,官方资料指出该模型在事实性错误方面相比 GPT-5.2 有明显下降,错误率降低约 33%。

应用场景

由于其长上下文能力和多模态能力,GPT-5.4 被用于多种复杂应用场景,例如:

  • 大型代码库理解与软件工程辅助
  • 复杂知识工作任务与研究分析
  • 长文档处理与信息总结
  • 自动化任务与智能代理系统

访问方式与许可

GPT-5.4 为专有商业模型,目前主要通过 OpenAI 提供的 API 以及相关开发工具平台访问。模型权重与训练数据未公开发布。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat