Cl

Claude Sonnet 4.6

聊天大模型

Claude Sonnet 4.6

发布时间: 2026-02-17

403
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
1M
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

1M tokens

最长输出结果

8192 tokens

模型类型

聊天大模型

发布时间

2026-02-17

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
暂无公开的 API 定价信息。

Claude Sonnet 4.6模型在各大评测榜单的评分

综合评估

共 4 项评测
GPQA Diamond default
89.90
14 / 161
ARC-AGI-2 default
58.30
12 / 42
HLE default
49
40 / 115
HLE default
33.20
40 / 115

编程与软件工程

共 1 项评测
79.60
11 / 92

Agent能力评测

共 1 项评测
97.90
10 / 34

AI Agent - 信息收集

共 1 项评测
BrowseComp default
74.70
13 / 34

AI Agent - 工具使用

共 2 项评测
72.50
3 / 9
59.10
10 / 26

生产力知识

共 1 项评测
GDPval-AA default
57
4 / 14

长上下文能力

共 1 项评测
AA-LCR default
71
1 / 13

发布机构

Claude Sonnet 4.6模型解读

Anthropic 于 2026 年 2 月 17 日发布了 Claude Sonnet 4.6,这是其 Sonnet 系列的最新版本。该模型被定位为 Sonnet 家族中能力最强的成员,在编码、计算机使用、长上下文推理、代理规划、知识工作和设计领域进行了全面升级。1M token 上下文窗口以 beta 形式提供(API 优先)。Anthropic 表示,该模型现已成为免费和 Pro 计划在 claude.ai 及 Claude Cowork 中的默认模型,免费层同时新增文件创建、连接器、技能和上下文压缩功能。

能力升级与具体改进

Sonnet 4.6 在多个领域较 Sonnet 4.5 实现显著提升,同时在部分任务中接近或匹配 2026 年 2 月 5 日发布的 Opus 4.6(Anthropic 的前沿模型)。

  • 编码:SWE-bench Verified 分数达 79.6%(Sonnet 4.5 为 77.2%,Opus 4.6 为 80.8%);Terminal-Bench 2.0 为 59.1%(Sonnet 4.5 为 51.0%)。在 Claude Code 中,早期开发者偏好率较 4.5 高约 70%,较 Opus 4.5 高 59%。模型在大型代码库导航、复杂 bug 修复、一致性及指令遵循方面改善明显,减少过度工程化和虚假成功声明。
  • 计算机使用:OSWorld-Verified 达 72.5%(Sonnet 4.5 为 61.4%,Opus 4.6 为 72.7%);保险基准准确率 94%。支持浏览器自动化、多步表单填写、复杂电子表格导航等零 API 操作任务,接近人类水平。
  • 知识工作与文档处理:OfficeQA 表现与 Opus 4.6 相当;Box 重推理 Q&A 较 4.5 提升 15 个百分点;金融服务基准答案匹配率显著提高。适用于企业文档(PDF、图表、表格)分析、金融建模和合规审查。
  • 代理规划与长上下文:支持长时序任务规划(如 Vending-Bench Arena 中早期资源投入与后期盈利调整)。1M token 上下文允许处理完整代码库、多份研究论文或长合同。
  • 设计:生成布局、动画和视觉输出的迭代次数减少,产出更符合生产标准。
  • 其他基准(选摘,来自系统卡):GPQA Diamond 89.9%(Sonnet 4.5 为 83.4%);MMMU-Pro(无工具)74.5%;Humanity’s Last Exam(无工具)33.2%;Finance Agent(最大思考)63.3%;WebArena-Verified 在单代理设置中领先;长上下文测试(OpenAI MRCR v2 1M)65.1%。

模型支持扩展思考模式(更多推理时间)和自适应思考模式(根据难度动态分配计算)。从 Sonnet 4.5 迁移通常只需少量提示调整。训练数据截止至 2025 年 5 月(部分文档提及可靠知识截止 2025 年 8 月,训练截止 2026 年 1 月)。

定价与可用性

定价与 Sonnet 4.5 保持一致:输入 $3 / 百万 token,输出 $15 / 百万 token。API ID 为 claude-sonnet-4-6,上下文窗口 200K(1M beta),最大输出 64K token。

可用平台包括:

  • claude.ai(免费/Pro 默认)、Claude Cowork、Claude Code。
  • 开发者平台(支持自适应思考、上下文压缩 beta)。
  • 主要云服务:Amazon Bedrock(anthropic.claude-sonnet-4-6)、Google Vertex AI、Microsoft Foundry。
  • GitHub Copilot(已逐步开放给 Pro+、Business 和 Enterprise 用户)。
  • Claude in Excel 插件(支持外部数据连接器,如 S&P Global、FactSet 等)。

官方强调模型性格呈现温暖、诚实、亲社会特征,具备幽默感。第三方评估(Vals AI、Andon Labs、ARC Prize 等)确认其在金融代理、cyber 和行为审计中的表现。Anthropic 继续实施 ASL-3 权重安全措施和持续监控。

总结定位

Sonnet 4.6 将此前主要依赖 Opus 级别的部分办公、编码和代理任务下放至更具性价比的 Sonnet 层级,同时保持中等延迟和规模适用性。Opus 4.6 仍适用于最复杂的前沿任务。模型现已开放,开发者可通过 claude.ai 或 API 直接测试,具体技术细节见 Anthropic 官方公告及系统卡。

该发布延续 Anthropic 约四个月一次的 Sonnet 更新节奏,反映其在平衡性能、成本与安全方面的持续迭代。更多基准细节和使用示例可参考 Anthropic 官网。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat