HunyuanImage-3.0-Instruct

视觉大模型

Tencent HunyuanImage-3.0-Instruct

发布时间: 2026-01-28

GitHub Hugging Face 在线体验

模型参数（Parameters）

800.0

最高上下文长度（Context Length）

128K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

128K tokens

最长输出结果

4096 tokens

模型类型

视觉大模型

发布时间

2026-01-28

模型预文件大小

170GB

推理模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT

预训练权重开源

TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT - 免费商用授权

GitHub 源码

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Hugging Face

https://huggingface.co/tencent/HunyuanImage-3.0-Instruct

在线体验

https://hunyuan.tencent.com/image

官方介绍与博客

官方论文

HunyuanImage 3.0 Technical Report

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	0	--
图片	0	0

缓存计费 Cache

模态	输入 Cache	输出 Cache
文本	0	--
图片	0	0

超上下文计费 Extended

模态	输入	输出
文本	0	--
图片	0	0

HunyuanImage-3.0-Instruct模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

腾讯AI实验室

查看发布机构详情

Tencent HunyuanImage-3.0-Instruct模型解读

1. 模型简介与核心特点

HunyuanImage-3.0-Instruct 是腾讯混元（Tencent Hunyuan）团队于 2026 年 1 月正式开源的旗舰级图像生成与编辑模型。作为 HunyuanImage 3.0 系列的核心成员，它专为高难度的指令遵循（Instruction Following）和图像编辑任务设计。该模型采用了先进的 MoE（Mixture of Experts） 架构，是目前业界规模最大的开源图像生成模型之一。其核心目标是解决复杂自然语言指令下的精确图像编辑、多图融合及长文本理解问题，通过引入原生的思维链（Chain-of-Thought, CoT）机制，显著提升了模型对用户意图的推理与执行能力。

2. 架构与技术规格

模型参数：总参数量高达 800亿（80B），推理解码时的激活参数量约为 130亿（13B）。
架构特点：采用了统一的自回归多模态架构（Unified Autoregressive Framework），区别于传统的纯 DiT（Diffusion Transformer）架构。该架构将多模态理解与生成统一在同一框架下，结合 MoE 技术，在保证巨大参数容量的同时维持了高效的推理性能。
训练机制：引入了腾讯自研的 MixGRPO（Group Relative Policy Optimization）算法进行后训练（Post-training），结合奖励模型的多轮迭代，大幅增强了模型对指令的响应能力和非编辑区域的保持能力。

3. 核心能力与支持模态

模态支持：支持文本+图像输入，图像输出。具备强大的多模态理解能力。
指令编辑：支持通过自然语言指令对图像进行精确编辑（如“把那只猫换成狗”、“让背景变成下雨天”），无需复杂的掩码辅助。
多图融合：能够提取多张参考图像中的主体或元素（如人物、物体），并将其自然地融合到新的场景中，生成多人合照或全新构图。
原生推理：具备类似 LLM 的原生思维链（Native CoT）能力，在生成图像前会先进行显式的逻辑推理，从而更准确地解析复杂的复合指令。

4. 性能与基准评测

根据官方及社区的初步评测，HunyuanImage-3.0-Instruct 在图像编辑准确性、多图融合的一致性以及长文本生成的语义对齐上，表现达到了开源领域的 SOTA（State-of-the-Art）水平，在 LMArena 等基准测试的图像编辑榜单中名列前茅，综合能力足以对标顶尖的闭源商业模型（如 Midjourney v6 等）。

5. 应用场景与限制

推荐用例：专业海报设计（文字与图像的精准排版）、电商素材生成、创意图像编辑、老照片修复与风格迁移、游戏资产生成的概念验证等。
已知局限：尽管支持多语言，但对中文指令的优化最为深度；在极高分辨率（如 4K 以上）的生成上可能仍需分块处理；MoE 架构对显存带宽要求较高，本地部署门槛相对较高（推荐多卡环境）。

6. 访问方式与许可

开源情况：模型权重及推理代码已在 GitHub 和 Hugging Face 完整开源。
许可协议：遵循 TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT，允许学术研究及在遵守协议前提下的免费商业使用。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯