Claude Sonnet 4.6

聊天大模型

Claude Sonnet 4.6

发布时间: 2026-02-17

403

GitHub Hugging Face 在线体验

模型参数（Parameters）

未披露

最高上下文长度（Context Length）

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

1M tokens

最长输出结果

8192 tokens

模型类型

聊天大模型

发布时间

2026-02-17

模型预文件大小

暂无数据

推理模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源 - 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://claude.ai

官方介绍与博客

官方论文

Introducing Claude Sonnet 4.6

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

暂无数据

接口价格

暂无公开的 API 定价信息。

Claude Sonnet 4.6模型在各大评测榜单的评分

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总模型数

GPQA Diamond default

89.90

14 / 161

ARC-AGI-2 default

58.30

12 / 42

HLE default

40 / 115

HLE default

33.20

40 / 115

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

SWE-bench Verified default

79.60

11 / 92

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

τ²-Bench - Telecom default

97.90

10 / 34

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

BrowseComp default

74.70

13 / 34

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总模型数

OSWorld-Verified default

72.50

3 / 9

Terminal Bench 2.0 default

59.10

10 / 26

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

GDPval-AA default

4 / 14

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

AA-LCR default

1 / 13

发布机构

Anthropic

查看发布机构详情

Claude Sonnet 4.6模型解读

Anthropic 于 2026 年 2 月 17 日发布了 Claude Sonnet 4.6，这是其 Sonnet 系列的最新版本。该模型被定位为 Sonnet 家族中能力最强的成员，在编码、计算机使用、长上下文推理、代理规划、知识工作和设计领域进行了全面升级。1M token 上下文窗口以 beta 形式提供（API 优先）。Anthropic 表示，该模型现已成为免费和 Pro 计划在 claude.ai 及 Claude Cowork 中的默认模型，免费层同时新增文件创建、连接器、技能和上下文压缩功能。

能力升级与具体改进

Sonnet 4.6 在多个领域较 Sonnet 4.5 实现显著提升，同时在部分任务中接近或匹配 2026 年 2 月 5 日发布的 Opus 4.6（Anthropic 的前沿模型）。

编码：SWE-bench Verified 分数达 79.6%（Sonnet 4.5 为 77.2%，Opus 4.6 为 80.8%）；Terminal-Bench 2.0 为 59.1%（Sonnet 4.5 为 51.0%）。在 Claude Code 中，早期开发者偏好率较 4.5 高约 70%，较 Opus 4.5 高 59%。模型在大型代码库导航、复杂 bug 修复、一致性及指令遵循方面改善明显，减少过度工程化和虚假成功声明。
计算机使用：OSWorld-Verified 达 72.5%（Sonnet 4.5 为 61.4%，Opus 4.6 为 72.7%）；保险基准准确率 94%。支持浏览器自动化、多步表单填写、复杂电子表格导航等零 API 操作任务，接近人类水平。
知识工作与文档处理：OfficeQA 表现与 Opus 4.6 相当；Box 重推理 Q&A 较 4.5 提升 15 个百分点；金融服务基准答案匹配率显著提高。适用于企业文档（PDF、图表、表格）分析、金融建模和合规审查。
代理规划与长上下文：支持长时序任务规划（如 Vending-Bench Arena 中早期资源投入与后期盈利调整）。1M token 上下文允许处理完整代码库、多份研究论文或长合同。
设计：生成布局、动画和视觉输出的迭代次数减少，产出更符合生产标准。
其他基准（选摘，来自系统卡）：GPQA Diamond 89.9%（Sonnet 4.5 为 83.4%）；MMMU-Pro（无工具）74.5%；Humanity’s Last Exam（无工具）33.2%；Finance Agent（最大思考）63.3%；WebArena-Verified 在单代理设置中领先；长上下文测试（OpenAI MRCR v2 1M）65.1%。

模型支持扩展思考模式（更多推理时间）和自适应思考模式（根据难度动态分配计算）。从 Sonnet 4.5 迁移通常只需少量提示调整。训练数据截止至 2025 年 5 月（部分文档提及可靠知识截止 2025 年 8 月，训练截止 2026 年 1 月）。

定价与可用性

定价与 Sonnet 4.5 保持一致：输入 $3 / 百万 token，输出 $15 / 百万 token。API ID 为 claude-sonnet-4-6，上下文窗口 200K（1M beta），最大输出 64K token。

可用平台包括：

claude.ai（免费/Pro 默认）、Claude Cowork、Claude Code。
开发者平台（支持自适应思考、上下文压缩 beta）。
主要云服务：Amazon Bedrock（anthropic.claude-sonnet-4-6）、Google Vertex AI、Microsoft Foundry。
GitHub Copilot（已逐步开放给 Pro+、Business 和 Enterprise 用户）。
Claude in Excel 插件（支持外部数据连接器，如 S&P Global、FactSet 等）。

官方强调模型性格呈现温暖、诚实、亲社会特征，具备幽默感。第三方评估（Vals AI、Andon Labs、ARC Prize 等）确认其在金融代理、cyber 和行为审计中的表现。Anthropic 继续实施 ASL-3 权重安全措施和持续监控。

总结定位

Sonnet 4.6 将此前主要依赖 Opus 级别的部分办公、编码和代理任务下放至更具性价比的 Sonnet 层级，同时保持中等延迟和规模适用性。Opus 4.6 仍适用于最复杂的前沿任务。模型现已开放，开发者可通过 claude.ai 或 API 直接测试，具体技术细节见 Anthropic 官方公告及系统卡。

该发布延续 Anthropic 约四个月一次的 Sonnet 更新节奏，反映其在平衡性能、成本与安全方面的持续迭代。更多基准细节和使用示例可参考 Anthropic 官网。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯