大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现，包括MMLU Pro、HLE、SWE-Bench等多个标准数据集，帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比，快速获取不同模型在实际应用中的优劣势。

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况