τ²-Bench 评测基准详情

1,365

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

τ²-Bench - Overall

用于评估大模型智能体在双控（人机协同）环境下任务执行与沟通能力的开放基准

问题数量 2285

发布机构个人

评测类别 Agent能力评测

评测指标 Accuracy

支持语言中文

难度等级中等难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

τ²-Bench 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

Gemini 3.0 Flash default

90.2

2025-12-17

未知

Gemini 3.0 Flash default

90.2

τ²-Bench得分 90.2

发布时间 2025-12-17

参数(亿) 未知

查看模型详情

GLM-5 default

89.7

2026-02-11

7440.0

GLM-5 default

89.7

τ²-Bench得分 89.7

发布时间 2026-02-11

参数(亿) 7440.0

查看模型详情

Step 3.5 Flash default

88.2

2026-02-02

1960.0

Step 3.5 Flash default

88.2

τ²-Bench得分 88.2

发布时间 2026-02-02

参数(亿) 1960.0

查看模型详情

GLM-4.7 default

87.4

2025-12-22

3580.0

GLM-4.7 default

87.4

τ²-Bench得分 87.4

发布时间 2025-12-22

参数(亿) 3580.0

查看模型详情

Qwen3.5-397B-A17B default

86.7

2026-02-16

397.0

Qwen3.5-397B-A17B default

86.7

τ²-Bench得分 86.7

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

Qwen3.5-397B-A17B 思考模式（工具）

86.7

2026-02-16

397.0

Qwen3.5-397B-A17B 思考模式（工具）

86.7

τ²-Bench得分 86.7

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

Gemini 3.0 Pro (Preview 11-2025) default

85.4

2025-11-18

未知

Gemini 3.0 Pro (Preview 11-2025) default

85.4

τ²-Bench得分 85.4

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

Claude Sonnet 4.5 default

84.7

2025-09-30

未知

Claude Sonnet 4.5 default

84.7

τ²-Bench得分 84.7

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

Grok 4.1 Fast default

82.71

2025-11-19

未知

Grok 4.1 Fast default

82.71

τ²-Bench得分 82.71

发布时间 2025-11-19

参数(亿) 未知

查看模型详情

Qwen3-Max-Thinking default

82.1

2026-01-26

10000.0

#10

Qwen3-Max-Thinking default

82.1

τ²-Bench得分 82.1

发布时间 2026-01-26

参数(亿) 10000.0

查看模型详情

Claude Opus 4.5 default

81.99

2025-11-25

未知

#11

Claude Opus 4.5 default

81.99

τ²-Bench得分 81.99

发布时间 2025-11-25

参数(亿) 未知

查看模型详情

DeepSeek V3.2 default

80.3

2025-12-01

6710.0

#12

DeepSeek V3.2 default

80.3

τ²-Bench得分 80.3

发布时间 2025-12-01

参数(亿) 6710.0

查看模型详情

GPT-5 default

80.0

2025-08-07

未知

#13

GPT-5 default

80.0

τ²-Bench得分 80.0

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

GLM-4.7-Flash default

79.5

2026-01-19

310.0

#14

GLM-4.7-Flash default

79.5

τ²-Bench得分 79.5

发布时间 2026-01-19

参数(亿) 310.0

查看模型详情

Qwen3.5-27B 思考模式（工具）

79.0

2026-02-25

270.0

#15

Qwen3.5-27B 思考模式（工具）

79.0

τ²-Bench得分 79.0

发布时间 2026-02-25

参数(亿) 270.0

查看模型详情

MiniMax M2 default

77.2

2025-10-27

2300.0

#16

MiniMax M2 default

77.2

τ²-Bench得分 77.2

发布时间 2025-10-27

参数(亿) 2300.0

查看模型详情

GLM-4.6 default

75.9

2025-09-30

3550.0

#17

GLM-4.6 default

75.9

τ²-Bench得分 75.9

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

Qwen3 Max (Preview) default

74.0

2025-09-05

未知

#18

Qwen3 Max (Preview) default

74.0

τ²-Bench得分 74.0

发布时间 2025-09-05

参数(亿) 未知

查看模型详情

Claude Opus 4 default

72.5

2025-05-23

未知

#19

Claude Opus 4 default

72.5

τ²-Bench得分 72.5

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

Qwen3 Max (Preview) default

72.0

2025-09-05

未知

#20

Qwen3 Max (Preview) default

72.0

τ²-Bench得分 72.0

发布时间 2025-09-05

参数(亿) 未知

查看模型详情

Claude Sonnet 4.5 default

71.0

2025-09-30

未知

#21

Claude Sonnet 4.5 default

71.0

τ²-Bench得分 71.0

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

DeepSeek V3.2-Exp default

66.7

2025-09-29

6710.0

#22

DeepSeek V3.2-Exp default

66.7

τ²-Bench得分 66.7

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

Kimi K2 default

64.3

2025-07-11

10000.0

#23

Kimi K2 default

64.3

τ²-Bench得分 64.3

发布时间 2025-07-11

参数(亿) 10000.0

查看模型详情

Kimi K2 default

64.3

2025-07-11

10000.0

#24

Kimi K2 default

64.3

τ²-Bench得分 64.3

发布时间 2025-07-11

参数(亿) 10000.0

查看模型详情

Claude Sonnet 3.7 default

61.8

2025-02-25

未知

#25

Claude Sonnet 3.7 default

61.8

τ²-Bench得分 61.8

发布时间 2025-02-25

参数(亿) 未知

查看模型详情

OpenAI o4 - mini default

56.9

2025-04-16

未知

#26

OpenAI o4 - mini default

56.9

τ²-Bench得分 56.9

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

GPT-4.1 default

54.7

2025-04-14

未知

#27

GPT-4.1 default

54.7

τ²-Bench得分 54.7

发布时间 2025-04-14

参数(亿) 未知

查看模型详情

GPT-4.1 mini default

53.0

2025-04-14

未知

#28

GPT-4.1 mini default

53.0

τ²-Bench得分 53.0

发布时间 2025-04-14

参数(亿) 未知

查看模型详情

Claude Sonnet 4 default

52.0

2025-05-23

未知

#29

Claude Sonnet 4 default

52.0

τ²-Bench得分 52.0

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

Qwen3-30B-A3B-2507 default

49.0

2025-07-29

305.0

#30

Qwen3-30B-A3B-2507 default

49.0

τ²-Bench得分 49.0

发布时间 2025-07-29

参数(亿) 305.0

查看模型详情

GPT OSS 20B default

47.7

2025-08-06

210.0

#31

GPT OSS 20B default

47.7

τ²-Bench得分 47.7

发布时间 2025-08-06

参数(亿) 210.0

查看模型详情

DeepSeek-V3-0324 default

38.8

2025-03-24

6710.0

#32

DeepSeek-V3-0324 default

38.8

τ²-Bench得分 38.8

发布时间 2025-03-24

参数(亿) 6710.0

查看模型详情

DeepSeek-V3.1 Terminus default

37.0

2025-09-22

6710.0

#33

DeepSeek-V3.1 Terminus default

37.0

τ²-Bench得分 37.0

发布时间 2025-09-22

参数(亿) 6710.0

查看模型详情

DeepSeek-V3.1 Terminus default

37.0

2025-09-22

6710.0

#34

DeepSeek-V3.1 Terminus default

37.0

τ²-Bench得分 37.0

发布时间 2025-09-22

参数(亿) 6710.0

查看模型详情

Qwen3-235B-A22B default

34.4

2025-04-28

2350.0

#35

Qwen3-235B-A22B default

34.4

τ²-Bench得分 34.4

发布时间 2025-04-28

参数(亿) 2350.0

查看模型详情

Haiku 4.5 default

33.0

2025-10-15

未知

#36

Haiku 4.5 default

33.0

τ²-Bench得分 33.0

发布时间 2025-10-15

参数(亿) 未知

查看模型详情

τ²-Bench - Overall

模型模式说明

τ²-Bench 大模型得分排行榜

τ²-Bench详细排名数据表格