MMEB-v2-Image 评测基准详情

105

MMEB(Massive Multimodal Embedding Benchmark)是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入,并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集,提供一个统一的评估平台,用于测试模型在分类、检索和其他任务上的性能。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

MMEB-v2-Image 大模型得分排行榜

数据来源:DataLearnerAI

MMEB-v2-Image详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
80.12
2026-01-08
80.0
MMEB-v2-Image得分 80.12
发布时间 2026-01-08
参数(亿) 80.0
查看模型详情
2
77.99
2025-12-15
未知
MMEB-v2-Image得分 77.99
发布时间 2025-12-15
参数(亿) 未知
查看模型详情
3
77.78
2025-06-28
未知
MMEB-v2-Image得分 77.78
发布时间 2025-06-28
参数(亿) 未知
查看模型详情
4
74.96
2026-01-08
20.0
MMEB-v2-Image得分 74.96
发布时间 2026-01-08
参数(亿) 20.0
查看模型详情
5
55.95
2024-12-24
70.0
MMEB-v2-Image得分 55.95
发布时间 2024-12-24
参数(亿) 70.0
查看模型详情
6
51.89
2024-12-24
20.0
MMEB-v2-Image得分 51.89
发布时间 2024-12-24
参数(亿) 20.0
查看模型详情