Claude Sonnet 4.5

聊天大模型

Claude Sonnet 4.5

发布时间: 2025-09-30

2,828

GitHub Hugging Face 在线体验

模型参数（Parameters）

未披露

最高上下文长度（Context Length）

1000K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

1000K tokens

最长输出结果

65536 tokens

模型类型

聊天大模型

发布时间

2025-09-30

模型预文件大小

暂无数据

思考模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源 - 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://claude.ai/

官方介绍与博客

官方论文

Introducing Claude Sonnet 4.5

DataLearnerAI博客

全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	3 美元/100 万tokens ≤ 200K	15 美元/100 万tokens ≤ 200K

缓存计费 Cache

模态	输入 Cache	输出 Cache
文本	3.75 美元/100 万tokens	0.3 美元/100 万tokens

超上下文计费 Extended

模态	输入	输出
文本	6 美元/100 万tokens > 200K	22.5 美元/100 万tokens > 200K

Claude Sonnet 4.5模型在各大评测榜单的评分

综合评估

共 12 项评测

评测名称 / 模式

得分

排名/总模型数

MMLU Pro default

4 / 114

GPQA Diamond default

83.40

82 / 161

LiveBench default

78.26

20 / 52

GPQA Diamond default

73.70

82 / 161

LiveBench default

70.56

20 / 52

ARC-AGI default

63.70

40 / 50

HLE default

33.60

102 / 115

ARC-AGI default

25.50

40 / 50

HLE default

17.70

102 / 115

ARC-AGI-2 default

13.60

35 / 42

HLE default

7.10

102 / 115

ARC-AGI-2 default

3.80

35 / 42

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总模型数

SWE-bench Verified default

14 / 92

SWE-bench Verified default

77.20

14 / 92

LiveCodeBench default

58 / 104

LiveCodeBench default

58 / 104

SWE-Bench Pro - Public default

43.60

10 / 17

数学推理

共 7 项评测

评测名称 / 模式

得分

排名/总模型数

AIME2025 default

100

99 / 108

AIME2025 default

99 / 108

AIME2025 default

99 / 108

IMO-ProofBench default

27.10

8 / 16

FrontierMath default

5.20

36 / 58

IMO-ProofBench Advanced default

4.80

6 / 8

FrontierMath - Tier 4 default

2.10

24 / 38

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总模型数

OSWorld-Verified default

61.40

5 / 9

Terminal-Bench default

25 / 35

Terminal Bench 2.0 default

42.80

23 / 26

Terminal-Bench default

25 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

MMMU default

77.80

11 / 20

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

Simple Bench default

54.30

9 / 27

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总模型数

τ²-Bench - Telecom default

7 / 34

τ²-Bench default

84.70

21 / 36

τ²-Bench default

21 / 36

Terminal Bench Hard default

9 / 14

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

IF Bench default

57.30

17 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

BrowseComp default

24.10

32 / 34

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

GDPval-AA default

9 / 14

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

AA-LCR default

7 / 13

发布机构

Anthropic

查看发布机构详情

Claude Sonnet 4.5模型解读

Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5，这款模型被定位为公司迄今为止最强大的前沿模型之一。作为Claude系列的最新迭代，Sonnet 4.5在编码、复杂代理构建以及计算机使用等方面展现出显著提升，标志着AI工具在实际生产环境中的进一步成熟。该模型的推出恰逢9月30日左右的全球AI社区热议期，迅速引发了开发者与企业的广泛关注。

核心特性与能力概述

Claude Sonnet 4.5的核心卖点在于其多模态处理能力和长时任务执行。不同于传统AI模型的短时交互，该模型能够自主运行超过30小时，同时保持对复杂、多步骤任务的专注。它支持工具集成，如应用程序、电子表格和软件操作，这使得其在实际工作流中更具实用性。此外，Sonnet 4.5在金融、法律、医学和STEM（科学、技术、工程、数学）领域的专业知识与推理能力上表现出色，能够处理高度领域特定的挑战。

从应用角度看，该模型特别适用于构建复杂代理系统，例如自动化软件开发或多阶段决策流程。Anthropic强调，Sonnet 4.5不仅是编码领域的佼佼者，还在数学推理和问题求解上实现了实质性进步。这些特性使其成为企业级AI部署的理想选择，尤其是在需要高可靠性和长续航的场景中。

性能基准与实证数据

Anthropic通过多项行业标准基准测试验证了Sonnet 4.5的实力。在SWE-bench Verified测试中，该模型在无额外计算的情况下达到了77.2%的得分，而在高计算配置下则提升至82.0%。在OSWorld基准上，Sonnet 4.5的得分达61.4%，较前代Sonnet 4的42.2%大幅跃升。其他评估包括Terminal-Bench、τ2-bench、AIME和MMMLU等，均显示出在推理、数学和多语言处理方面的领先优势。

这些数据并非孤立数字，而是基于严格的实验设置得出的，例如使用采样温度为1.0的AIME测试或多轮平均的MMMLU评估。第三方观察显示，Sonnet 4.5在漏洞发现、代码分析和软件工程任务中表现出“显著改进”，特别是在生物风险评估领域。总体而言，这些基准结果确立了其在AI前沿模型中的领先地位。

与前代模型的比较

相较于Claude 3.5 Sonnet，Sonnet 4.5在编码和代理构建上实现了“实质性提升”，而非渐进式改进。例如，在OSWorld测试中的得分翻倍，反映出模型在操作系统交互和长时任务管理上的优化。同时，与Claude Opus 4.1相比，Sonnet 4.5在领域特定推理（如金融代理任务）上表现出更强的知识深度。 Anthropic将其描述为Sonnet 4的“无缝替换”，性能提升显著，但保持了相似的接口兼容性，便于现有用户迁移。

尽管如此，一些用户反馈指出，在某些主观任务中，Sonnet 4.5的改进可能不如Opus系列明显。这提醒我们，模型选择仍需根据具体用例进行评估。

安全与合规措施

安全一直是Anthropic的核心关注点，Sonnet 4.5被归类为AI安全水平3（ASL-3），配备了针对化学、生物、放射和核（CBRN）武器的分类器，以检测潜在危险输入/输出。与前代相比，该模型在对齐性上大幅进步，减少了奉承、欺骗和有害提示遵守等行为。首次引入的机制解释技术进一步提升了透明度，帮助识别潜在风险。

然而，分类器仍可能产生假阳性，导致正常对话中断——Anthropic已将假阳性率降低至前代的1/10，并承诺持续优化。对于网络安全和生物研究领域的客户，Anthropic提供白名单机制，以平衡安全与可用性。

可用性与定价

Claude Sonnet 4.5已全面上线，包括Claude API、Claude应用、Claude Code和Chrome扩展。开发者可通过Claude Agent SDK快速构建代理系统。此外，它已集成至Amazon Bedrock服务，进一步扩展了企业级访问渠道。

定价维持与Sonnet 4一致：输入令牌每百万3美元，输出令牌每百万15美元。这使得其在成本效益上保持竞争力，尤其适合高强度编码任务。

结语：AI生产的下一个里程碑

Claude Sonnet 4.5的发布强化了Anthropic在AI安全与实用性平衡上的领导地位。虽然模型仍面临长上下文配置下的推理挑战，但其在基准测试和实际应用中的表现预示着AI代理时代的加速到来。对于开发者、企业决策者和AI研究者而言，这款模型值得纳入测试范围，以评估其在特定工作负载下的潜力。未来，随着更多第三方评估的涌现，我们将看到Sonnet 4.5如何进一步塑造AI生态。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯