Ne

NextStep-1.1

视觉大模型

NextStep-1.1

发布时间: 2025-12-24

81
模型参数(Parameters)
150.0
最高上下文长度(Context Length)
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度
暂无数据
最长输出结果
暂无数据
模型类型

视觉大模型

发布时间

2025-12-24

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

NextStep-1.1模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

NextStep-1.1模型解读

模型简介与版本定位

NextStep-1.1 是 StepFun(阶跃星辰)在 NextStep 系列中发布的图像生成模型版本更新。根据其 Hugging Face 模型卡与开源仓库的说明,该版本目标是解决 NextStep-1 在可视化稳定性方面出现的问题,并通过更长时间的训练与基于 Flow 的强化学习(RL)后训练流程提升输出质量与稳定性。

开源仓库的更新记录明确写到 NextStep-1.1 于 2025-12-24 对外发布,并提示可通过 Hugging Face 获取对应 checkpoints。

架构与技术路线(基于公开技术报告与官方说明)

在公开技术路线中,NextStep 系列被描述为一种面向图像生成的自回归(Autoregressive, AR)范式:使用因果 Transformer 在统一序列上建模离散文本 token 与连续图像 token,并通过轻量的 flow-matching 头部对视觉位置的连续 token 进行预测。StepFun 的官方研究说明强调了“连续视觉 token”与“flow-matching head”的组合用于避免离散化(如 VQ)带来的信息损失,并以统一 next-token prediction 形式扩展到文本到图像生成与相关编辑能力。

需要注意:NextStep-1.1 的模型卡链接到与 NextStep-1 相同的技术报告(arXiv:2508.10711)。若后续 StepFun 发布专门针对 1.1 的独立技术报告,应以官方新增文档为准更新此处引用。

核心能力与模态支持

从 Hugging Face 的任务标签与模型卡内容看,NextStep-1.1 面向“Text-to-Image”任务,输入为文本提示词,输出为图像结果。模型卡同时提到通过 RL 后训练提升纹理与减少视觉伪影,并强调数值稳定性改进。关于是否在该权重版本中直接提供图像编辑(image-to-image / editing)接口,公开页面未给出与 NextStep-1-Large-Edit 等同级别的明确说明,因此此处不做推断性断言,仅按已明确的文本到图像能力进行登记。

性能与评测信息

当前 NextStep-1.1 的公开页面未展示独立的标准基准分数表。若需要对比评测,可参考 StepFun 针对 NextStep-1 的官方研究页中披露的 GenEval、GenAI-Bench、DPG-Bench、WISE 等基准结果,并在后续确认 1.1 是否发布对应的对照实验与分数更新。

开源、获取方式与许可证

NextStep-1.1 已在 Hugging Face 发布权重,并在模型卡中标注许可证为 Apache-2.0;代码与使用方式可参考 stepfun-ai/NextStep-1 开源仓库。模型卡给出的“Paper”链接指向 arXiv:2508.10711 技术报告。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat