AA-LCR 评测基准详情

296

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

Artificial Analysis - Long Context Reasoning

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

问题数量 100

发布机构 Artificial Analysis

评测类别长上下文能力

评测指标 Accuracy

支持语言英文

难度等级中等难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

AA-LCR 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

1

Gemini 3.0 Pro (Preview 11-2025) default

71.0

2025-11-18

未知

#1

Gemini 3.0 Pro (Preview 11-2025) default

71.0

AA-LCR得分 71.0

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

2

Claude Opus 4.6 default

71.0

2026-02-05

未知

#2

Claude Opus 4.6 default

71.0

AA-LCR得分 71.0

发布时间 2026-02-05

参数(亿) 未知

查看模型详情

3

Claude Sonnet 4.6 default

71.0

2026-02-17

未知

#3

Claude Sonnet 4.6 default

71.0

AA-LCR得分 71.0

发布时间 2026-02-17

参数(亿) 未知

查看模型详情

4

MiniMax M2.5 default

69.5

2026-02-12

2290.0

#4

MiniMax M2.5 default

69.5

AA-LCR得分 69.5

发布时间 2026-02-12

参数(亿) 2290.0

查看模型详情

5

Qwen3.5-397B-A17B default

68.7

2026-02-16

397.0

#5

Qwen3.5-397B-A17B default

68.7

AA-LCR得分 68.7

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

6

Qwen3.5-27B 思考模式（无工具）

66.1

2026-02-25

270.0

#6

Qwen3.5-27B 思考模式（无工具）

66.1

AA-LCR得分 66.1

发布时间 2026-02-25

参数(亿) 270.0

查看模型详情

7

Gemini 2.5-Pro default

66.0

2025-06-05

未知

#7

Gemini 2.5-Pro default

66.0

AA-LCR得分 66.0

发布时间 2025-06-05

参数(亿) 未知

查看模型详情

8

Claude Sonnet 4.5 default

66.0

2025-09-30

未知

#8

Claude Sonnet 4.5 default

66.0

AA-LCR得分 66.0

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

9

Claude Sonnet 4 default

65.0

2025-05-23

未知

#9

Claude Sonnet 4 default

65.0

AA-LCR得分 65.0

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

10

Kimi K2.5 default

65.0

2026-01-27

10000.0

#10

Kimi K2.5 default

65.0

AA-LCR得分 65.0

发布时间 2026-01-27

参数(亿) 10000.0

查看模型详情

11

GLM-5 default

63.0

2026-02-11

7440.0

#11

GLM-5 default

63.0

AA-LCR得分 63.0

发布时间 2026-02-11

参数(亿) 7440.0

查看模型详情

12

Claude Sonnet 3.7 default

61.0

2025-02-25

未知

#12

Claude Sonnet 3.7 default

61.0

AA-LCR得分 61.0

发布时间 2025-02-25

参数(亿) 未知

查看模型详情

13

Claude Opus 4.6 default

58.0

2026-02-05

未知

#13

Claude Opus 4.6 default

58.0

AA-LCR得分 58.0

发布时间 2026-02-05

参数(亿) 未知

查看模型详情