Ki

Kimi K2 Thinking

推理大模型

Kimi K2 Thinking

发布时间: 2025-11-06

1,043
模型参数(Parameters)
10400.0
最高上下文长度(Context Length)
256K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

256K tokens

最长输出结果
暂无数据
模型类型

推理大模型

发布时间

2025-11-06

模型预文件大小

1.09 TB

推理模式
思考模式(Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Modified MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.6 美元/100 万tokens 2.5 美元/100 万tokens
缓存计费 Cache
模态 输入 Cache 输出 Cache
文本 0.15 美元/100 万tokens --

Kimi K2 Thinking模型在各大评测榜单的评分

综合评估

共 6 项评测
MMLU Pro thinking
84.60
19 / 109
GPQA Diamond thinking
84.50
21 / 141
LiveBench thinking
67.93
27 / 52
HLE parallel_thinking + 使用工具
51
1 / 83
HLE thinking + 使用工具
44.90
4 / 83
HLE thinking
23.90
28 / 83

编程与软件工程

共 2 项评测
LiveCodeBench thinking
83.10
8 / 99
SWE-bench Verified thinking + 使用工具
71.30
23 / 75

数学推理

共 3 项评测
AIME2025 parallel_thinking + 使用工具
100
1 / 101
AIME2025 thinking + 使用工具
99.10
10 / 101
AIME2025 thinking
94.50
23 / 101

AI Agent - 工具使用

共 1 项评测
Terminal-Bench thinking + 使用工具
47.10
4 / 35

Agent能力评测

共 1 项评测
τ²-Bench - Telecom thinking + 使用工具
93
8 / 19

指令跟随

共 1 项评测
IF Bench thinking
68
6 / 15

AI Agent - 信息收集

共 1 项评测
BrowseComp thinking + 使用工具
60.20
4 / 16

发布机构

Kimi K2 Thinking模型解读

Moonshot AI 于 2025 年 11 月 6 日发布了 Kimi K2 Thinking 模型。这是 Kimi K2 系列的第一个推理变体。该公司位于北京,由阿里巴巴支持。Kimi K2 系列此前在 2025 年 7 月和 9 月发布了非推理版本的 Kimi K2 Instruct 模型。

模型规格

Kimi K2 Thinking 采用混合专家(MoE)架构,总参数量为 1 万亿,活跃参数为 320 亿。它使用 INT4 精度,这比先前版本的 FP8 精度更节省空间,模型文件大小约为 594 GB。上下文窗口支持 256K 令牌。输入和输出仅限于文本模态。

Moonshot AI 在后训练阶段使用了量化感知训练,以实现 INT4 精度。这使得模型在较旧的 NVIDIA GPU 上运行时更高效,因为这些 GPU 不支持 FP4。

功能和能力

该模型设计为思考代理,支持多步推理和工具使用。它可以执行 200 到 300 个连续工具调用,而无需人类干预。主要应用包括推理、代理搜索和编码任务。在测试时,它通过扩展思考令牌和工具调用轮次来处理复杂任务。

在代理任务基准中,Kimi K2 Thinking 在 Tau2 Bench Telecom 上得分 93%,模拟客户服务代理场景。在 HLE 上得分 44.9%,在 BrowseComp 上得分 60.2%。这些分数使其在开源模型中位居前列。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat