GPT-5.3 Codex
支持
400K tokens
128000 tokens
编程大模型
2026-02-05
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 1.75 美元/ 100 万tokens | 14 美元/ 100 万tokens |
| 模态 | 输入 Cache | 输出 Cache |
|---|---|---|
| 文本 | 0.175 美元/ 100 万tokens |
2026年2月5日,OpenAI发布了GPT-5.3-Codex,这是其最新的代理式编程模型。该模型不仅在多项行业基准测试中取得领先成绩,更值得关注的是,它成为OpenAI首个在自身开发过程中发挥实质性作用的模型。
GPT-5.3-Codex整合了GPT-5.2-Codex的前沿编程能力与GPT-5.2的推理和专业知识能力,并实现了25%的速度提升。模型具备以下技术特性:
SWE-Bench Pro是针对真实软件工程场景的严格评估,覆盖四种编程语言,具有更强的抗污染性和行业相关性。GPT-5.3-Codex在实现最高准确率的同时,使用的token数量少于所有前代模型。
该基准测试衡量编程代理所需的终端技能。GPT-5.3-Codex在这一指标上取得了13个百分点的单代跨越,显著领先于同期发布的竞品。
OSWorld评估代理在视觉桌面环境中完成生产力任务的能力。GPT-5.3-Codex的表现几乎是前代模型的两倍,接近人类水平。
GDPval是OpenAI于2025年发布的评估体系,衡量模型在44种职业中执行明确知识工作任务的能力,包括制作演示文稿、电子表格等工作产品。
这是OpenAI首个被归类为网络安全领域"高能力"的模型,也是首个直接训练用于识别软件漏洞的模型。
GPT-5.3-Codex的一个突破性特征是它在自身创建过程中发挥的作用:
研究团队应用场景:
工程团队应用场景:
数据团队应用场景:
CEO Sam Altman在发布后表示:"看到我们通过使用5.3-Codex本身来加速5.3-Codex的发布速度,这真是令人惊叹,这无疑是未来趋势的标志。"
除了基准测试,OpenAI通过让GPT-5.3-Codex自主构建复杂游戏来验证其长周期开发能力:
这些演示涉及数百万tokens的迭代,证明模型能够在跨越多天的项目中维持上下文并持续推进。
在日常网站开发方面,当收到简单或不完整的提示时,GPT-5.3-Codex现在能够默认生成更具功能性的设计。例如,在创建落地页时,它会自动:
GPT-5.3-Codex的定位已从纯编程代理扩展为能够执行开发者和专业人员在计算机上几乎所有工作的通用代理,包括:
GPT-5.3-Codex在工作过程中提供更频繁的进度更新,用户可以:
这种设计使其更像一个可以持续互动的同事,而非等待最终输出的工具。
鉴于GPT-5.3-Codex被归类为网络安全领域的"高能力"模型,OpenAI部署了最全面的安全防护措施:
配套安全举措包括:
OpenAI表示,虽然没有确凿证据表明该模型能够端到端自动化网络攻击,但出于预防考虑,采取了这些措施。
当前可用渠道:
API访问: 计划推出,具体时间待定
性能优化: 付费计划的速率限制翻倍,以鼓励密集测试
基础设施和推理栈的改进使所有Codex用户都能获得25%的速度提升,这一提升来自于技术优化而非用户端配置。
GPT-5.3-Codex的发布时间与Anthropic发布Claude Opus 4.6完全同步,行业观察者将这一现象称为"AI编程战争"的开端。两家公司还计划在超级碗期间播放竞争性广告,显示出市场竞争的激烈程度。
根据Every.to的独立测试,Opus 4.6在原始基准分数、首次尝试可靠性和构建成功一致性方面具有优势,但GPT-5.3-Codex在任务完成速度上更快,且具有更友好和富有创造力的交互风格。
GPT-5.3-Codex代表了从专用编程助手向通用专业代理的转变。其56.8%的SWE-Bench Pro准确率、77.3%的Terminal-Bench 2.0得分,以及在自身开发过程中发挥的作用,标志着AI模型自我改进能力的新阶段。
对于开发团队而言,400K上下文窗口、128K输出限制,以及在长周期任务中维持一致性的能力,使其成为处理复杂软件工程工作流的可行工具。网络安全领域的"高能力"分类虽然带来了额外的部署限制,但也反映了模型在漏洞识别方面的实际能力。
该模型现已通过ChatGPT付费计划向用户开放,API访问即将推出。随着竞争对手同步发布类似产品,AI辅助编程市场正进入一个新的发展阶段。
关注DataLearnerAI微信公众号,接受最新大模型资讯