St

Stable-DiffCoder-8B-Base

编程大模型

ByteDance-Seed/Stable-DiffCoder-8B-Base

发布时间: 2026-01-22

77
模型参数(Parameters)
80.0
最高上下文长度(Context Length)
8K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

8K tokens

最长输出结果

8192 tokens

模型类型

编程大模型

发布时间

2026-01-22

模型预文件大小

15GB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
暂无公开的 API 定价信息。

Stable-DiffCoder-8B-Base模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

字节跳动Seed团队
字节跳动Seed团队
查看发布机构详情

ByteDance-Seed/Stable-DiffCoder-8B-Base模型解读

1. Stable-DiffCoder-8B-Base 简介和核心特点
Stable-DiffCoder-8B-Base 是由 字节跳动 Seed 团队 (ByteDance Seed Team) 于 2026 年 1 月 22 日发布的开源代码生成模型。该模型属于 Stable-DiffCoder 系列 的基础版本 (Base),是一款基于扩散模型 (Diffusion Model) 架构的大型语言模型 (DLLM)。其核心目标是突破传统自回归 (AR) 模型在代码生成任务中的局限性,利用扩散模型的非顺序生成特性,实现更高效、灵活的代码补全与编辑能力。作为一款 8B 参数量的模型,它在保持计算效率的同时,通过创新的训练范式显著提升了代码生成的质量。

2. 架构与技术规格

  • 模型参数: 80 亿 (8B) 稠密参数。
  • 上下文窗口: 8K (8192 tokens)
  • 架构特点: 模型基于 Seed-Coder 的基础架构构建,但引入了块扩散持续预训练 (Block Diffusion Continual Pretraining, CPT) 机制。不同于传统的从左到右预测,该模型采用掩码扩散语言模型 (Mask Diffusion Language Model) 方式,配合定制的预热策略和分块剪裁噪声调度 (Block-wise Clipped Noise Schedule),实现了更稳定的训练收敛。
  • 训练数据: 在 GitHub 公共代码及代码相关网页数据上进行了约 1.3T tokens 的持续预训练。

3. 核心能力与支持模态

  • 模态支持: 专注于 纯文本/代码 输入与输出。
  • 能力详述:得益于扩散架构,该模型原生支持中间填充 (Fill-in-the-Middle, FIM) 和任意顺序的代码建模。这使得它在代码补全、代码插入以及结构化代码编辑方面具有显著优势。相比自回归模型,它能更好地利用上下文的双向信息来预测缺失的代码片段。

4. 性能与基准评测
根据官方公布的测试数据,Stable-DiffCoder-8B-Base 在多个代码基准测试中表现优异,超越了同量级的自回归模型:

  • HumanEval: 得分 72.0,显著高于 DeepSeek-Coder-6.7B-Base (47.6) 和 OpenCoder-8B-Base (66.5)。
  • 综合表现: 在代码生成、代码补全和代码推理等任务上,均取得了同类 8B 开源模型中的 SOTA (State-of-the-Art) 性能,证明了扩散训练范式在代码建模上的有效性。

5. 应用场景与限制

  • 推荐用例: 适用于 IDE 代码智能补全、复杂代码段的中间插入与修复、以及需要非顺序推理的代码编辑任务。
  • 已知局限: 作为 Base 模型,它未经过指令微调 (Instruction Tuning),更适合作为下游任务的微调基座或代码补全工具,直接用于对话交互可能无法完全遵循人类指令。

6. 访问方式与许可
模型权重已在 Hugging Face 平台开源,代码托管于 GitHub。项目采用宽松的 MIT License,允许学术研究及商业用途。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat