C-Eval 评测基准详情

998

Chinese Evaluation Benchmark

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准，用于评估模型在中文环境下的知识和推理能力。

问题数量 13948

发布机构请选择发布机构

评测类别综合评估

评测指标 Accuracy

支持语言中文

难度等级基础

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

C-Eval 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

Qwen3-Max-Thinking default

93.7

2026-01-26

10000.0

Qwen3-Max-Thinking default

93.7

C-Eval得分 93.7

发布时间 2026-01-26

参数(亿) 10000.0

查看模型详情

Qwen3.5-397B-A17B default

93.0

2026-02-16

397.0

Qwen3.5-397B-A17B default

93.0

C-Eval得分 93.0

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

Qwen3.5-397B-A17B 思考模式（无工具）

93.0

2026-02-16

397.0

Qwen3.5-397B-A17B 思考模式（无工具）

93.0

C-Eval得分 93.0

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

Hunyuan-T1 default

91.8

2025-03-21

未知

Hunyuan-T1 default

91.8

C-Eval得分 91.8

发布时间 2025-03-21

参数(亿) 未知

查看模型详情

Qwen3.5-27B 思考模式（无工具）

90.5

2026-02-25

270.0

Qwen3.5-27B 思考模式（无工具）

90.5

C-Eval得分 90.5

发布时间 2026-02-25

参数(亿) 270.0

查看模型详情

Chinese Evaluation Benchmark

模型模式说明

C-Eval 大模型得分排行榜

C-Eval详细排名数据表格