OSWorld-Verified 评测基准详情

261

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

OS World Verified

一个用于验证大模型Agent在操作计算机方面能力的评测基准，OSWorld的升级版本

问题数量 369

发布机构个人

评测类别 AI Agent - 工具使用

评测指标 Accuracy

支持语言英文

难度等级中等难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

OSWorld-Verified 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

GPT-5.4 极高强度思考（工具）

75.0

2026-03-05

未知

GPT-5.4 极高强度思考（工具）

75.0

OSWorld-Verified得分 75.0

发布时间 2026-03-05

参数(亿) 未知

查看模型详情

Claude Opus 4.6 深度思考模式（工具）

72.7

2026-02-05

未知

Claude Opus 4.6 深度思考模式（工具）

72.7

OSWorld-Verified得分 72.7

发布时间 2026-02-05

参数(亿) 未知

查看模型详情

Claude Sonnet 4.6 default

72.5

2026-02-17

未知

Claude Sonnet 4.6 default

72.5

OSWorld-Verified得分 72.5

发布时间 2026-02-17

参数(亿) 未知

查看模型详情

Qwen3.5-397B-A17B 思考模式（工具）

62.2

2026-02-16

397.0

Qwen3.5-397B-A17B 思考模式（工具）

62.2

OSWorld-Verified得分 62.2

发布时间 2026-02-16

参数(亿) 397.0

查看模型详情

Claude Sonnet 4.5 default

61.4

2025-09-30

未知

Claude Sonnet 4.5 default

61.4

OSWorld-Verified得分 61.4

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

Qwen3.5-27B 思考模式（工具）

56.2

2026-02-25

270.0

Qwen3.5-27B 思考模式（工具）

56.2

OSWorld-Verified得分 56.2

发布时间 2026-02-25

参数(亿) 270.0

查看模型详情

GPT-5.2 极高强度思考（工具）

47.3

2025-12-11

未知

GPT-5.2 极高强度思考（工具）

47.3

OSWorld-Verified得分 47.3

发布时间 2025-12-11

参数(亿) 未知

查看模型详情

Claude Sonnet 4 default

42.2

2025-05-23

未知

Claude Sonnet 4 default

42.2

OSWorld-Verified得分 42.2

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

Claude Sonnet 3.7 default

28.0

2025-02-25

未知

Claude Sonnet 3.7 default

28.0

OSWorld-Verified得分 28.0

发布时间 2025-02-25

参数(亿) 未知

查看模型详情