GM

GME-Qwen2-VL-7B

embedding模型

gme-Qwen2-VL-7B

发布时间: 2024-12-24

31
模型参数(Parameters)
70.0
最高上下文长度(Context Length)
32K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

32K tokens

最长输出结果
暂无数据
模型类型

embedding模型

发布时间

2024-12-24

模型预文件大小

33.2 GB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

GME-Qwen2-VL-7B模型在各大评测榜单的评分

图像向量嵌入

共 1 项评测
MMEB-v2-Image normal
55.95
5 / 6

发布机构

gme-Qwen2-VL-7B模型解读

模型概述

GME(General Multimodal Embedding)是阿里巴巴通义实验室(Tongyi Lab)发布的一组“统一多模态向量表示”模型,基于 Qwen2-VL 系列多模态大模型骨干。该系列面向 Universal Multimodal Retrieval(UMR)任务:将文本、图像、图文对映射到同一向量空间,用于任意模态之间的相似度检索(Any-to-Any)。本条目对应论文中 7B 规模的 GME-Qwen2-VL-7B;开源权重以 Hugging Face 仓库 Alibaba-NLP/gme-Qwen2-VL-7B-Instruct 形式提供(仓库名带 Instruct)。

关键规格

项目信息
发布方阿里巴巴(Tongyi Lab)
模型规模7B(模型卡中亦给出约 8.29B 的“Model Size”统计口径)
最大序列长度32768(约 32K)
向量维度3584
输入模态text / image / text+image
输出向量(embedding)
开源许可Apache-2.0
模型文件体积约 33.2 GB(主分支文件体积统计)

架构与训练要点(公开信息)

论文描述其以 Qwen2-VL 为骨干,通过 LoRA 方式进行适配训练(例如 LoRA rank=8、temperature=0.03、学习率 1e-4 等设置);为控制训练效率与视觉 token 数量,单张图像的视觉 token 上限设置为 1024。训练数据方面,论文报告构建并使用了大规模的多模态检索训练数据(包含合成的 fused-modal 数据),总规模达到百万级样本(论文报告约 8M 量级)。

能力与使用方式

模型卡给出典型调用:get_text_embeddingsget_image_embeddingsget_fused_embeddings,并支持通过 instruction/prompt 形式为“查询侧 embedding”注入检索意图(例如 Text-to-Image 检索提示词),用于区分 query/corpus 的编码方式。

评测与基准(公开分数)

模型卡在 UMRB 与 MTEB 等基准上报告了分数:在 UMRB(47 个子任务聚合)上,GME-Qwen2-VL-7B 的平均分为 67.44;在模型卡的 Model List 中同时给出 MTEB-en、MTEB-zh 分数与模型维度/最大长度等信息。

已知限制(公开说明)

官方在限制说明中提到:由于视觉 token 成本与数据覆盖限制,评测与数据主要保留“单图”输入形态;此外训练与测试主要使用英语数据,虽然骨干模型支持多语言,但多语言多模态 embedding 的效果不作保证。

访问方式

开源权重:Hugging Face(见上方仓库链接)。模型卡同时提示:远程代码在部分 transformers 版本(如 >=4.52.0)存在兼容性问题,建议使用指定版本或 sentence-transformers 路线。另:模型卡注明该系列也提供阿里云商业 API(multimodal-embedding-v1),但其后端模型与开源权重并非完全一致。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat