模型评测对比最新基准汇总

DataLearner AI 大模型基准对比
Qwen3-235B-A22B-Thinking与GPT OSS 120B模型能力评测结果

本页面提供Qwen3-235B-A22B-Thinking,GPT OSS 120B模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Qwen3-235B-A22B-Thinking,GPT OSS 120B模型在GPQA Diamond,HLE,LiveBench,MMLU Pro,AIME2025等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

模型概览 Model Overview

快速浏览本次参与对比的模型关键信息。

阿里巴巴

Qwen3-235B-A22B-Thinking

阿里巴巴发布的推理大模型模型。

发布时间: 2025-07-30
上下文长度: 256K
模型类型: 推理大模型

思考模式（Thinking Mode）

规格详情在线体验

OpenAI

GPT OSS 120B

OpenAI 发布的推理大模型模型。

发布时间: 2025-08-06
上下文长度: 128K
模型类型: 推理大模型

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）

规格详情无体验地址

特性明细对比

技术规格、API 能力与生态细节，一眼看清差异。

📊 左右滑动可查看更多模型数据 →

对比项	Q Qwen3-235B-A22B-Thinking 阿里巴巴	G GPT OSS 120B OpenAI
核心信息
开发机构	阿里巴巴	OpenAI
发布时间	2025-07-30	2025-08-06
模型类型	推理大模型	推理大模型
MoE 架构
性能与规格
总参数量	305 亿	117 亿
激活参数量	33 亿	51 亿
模型大小	31.17GB	240GB
推理能力
推理速度
思考模式
深度思考
最大上下文	256K	128K
最大输出	16384	131072
支持模态
文本输入
图片输入
音频输入
视频输入
Embedding 输入
输出能力
文本输出
图片输出
音频输出
视频输出
Embedding 输出
开源与许可
代码开源	--	--
权重开源	--	--
商业授权	免费商用授权	免费商用授权
资源与链接
GitHub	仓库	仓库
Hugging Face	模型页	模型页
论文/报告	查看	查看
官方介绍	--	阅读
在线体验
Playground	体验入口	—

Qwen3-235B-A22B-Thinking与GPT OSS 120B模型各评测基准得分对比表

评测基准	Qwen3-235B-A22B-Thinking thinking	GPT OSS 120B thinking	GPT OSS 120B thinking + 使用工具	GPT OSS 120B normal
GPQA Diamond 综合评估	81.1	80.1	--	--
HLE 综合评估	18.2	14.9	19	--
LiveBench 综合评估	63.42	--	--	55.56
MMLU Pro 综合评估	84.4	79	--	--
AIME2025 数学推理	92.3	83	97.9	--

Qwen3-235B-A22B-Thinking与GPT OSS 120B模型评测结果汇总对比图

按评测类别查看各模型/模式的得分差异。

蓝色柱状系列表示选定模型 Qwen3-235B-A22B-Thinking 在不同模式下的表现

未在对比页指定评测基准，系统已自动加载 2 个评测类别，共 5 项评测。

评测类别

综合评估评测对比

Qwen3-235B-A22B-Thinking与GPT OSS 120B模型 · 4 项榜单 · 全部模式 / 全部工具

评测类别

数学推理评测对比

Qwen3-235B-A22B-Thinking与GPT OSS 120B模型 · 1 项榜单 · 全部模式 / 全部工具

Qwen3-235B-A22B-Thinking与GPT OSS 120B模型的 API 价格对比 Pricing Comparison

输入/输出单价、不同模式费用一览，快速找到性价比。

Qwen3-235B-A22B-Thinking与GPT OSS 120B模型评测基准详表 Benchmark Details

逐个榜单查看各模型表现，支持点击跳转原始链接。