当前位置：首页 » AI新闻

字节跳动发布 Seed Diffusion：代码生成速度提升5.4倍

2025-08-02

751

字节跳动 Seed 团队发布了一款名为 Seed Diffusion Preview 的实验性语言模型，专门用于代码生成。该模型基于离散状态扩散技术，实现了 2146 token/s 的推理速度，比同等规模的自回归（Autoregressive）模型快了 5.4 倍，同时在多个核心代码基准测试中保持了相当的性能。

字节跳动发布 Seed Diffusion：代码生成速度提升5.4倍-1

这一成果为代码模型的速度与质量帕累托前沿（speed-quality Pareto frontier）树立了新的标杆，证明了离散扩散方法在代码生成领域的巨大潜力。

自回归模型的“速度枷锁”

当前主流的代码生成模型大多采用自回归架构，它们通过逐个预测下一个代码 token 来生成程序，类似于人类写作时“逐字输出”。这种机制保证了代码的连贯性，但也带来了难以克服的速度瓶颈。由于每个 token 的生成都依赖于前一个 token，整个过程无法高效并行，导致在处理长代码序列时速度较慢。

Seed Diffusion 采用的扩散模型（Diffusion Model）则从根本上改变了游戏规则。扩散模型最初在图像生成领域大放异彩，其工作方式更像是“由模糊到清晰”的绘画过程。对于代码生成，它可以从一个充满噪声（或称 [MASK] 标记）的模板开始，通过多步“去噪”并行地恢复出完整的、结构正确的代码。理论上，这种并行解码的能力可以极大地提升生成速度。

图1：Seed Diffusion 在八个开源代码基准上的推理速度上图展示了 Seed Diffusion 的推理速度。由于测试条件不同，直接与其他模型进行基准比较存在挑战。例如，Mercury Coder 是在专有数据集和 H100 硬件上评估的，而 Gemini Diffusion 的速度数据则来自未知硬件上的混合任务基准。

提速背后的核心方法

Seed 团队为了将扩散模型的理论优势转化为实际应用，引入了多项关键技术。

从模式填充到逻辑编辑的两阶段学习

传统的扩散模型训练方式存在一个弊端：模型只会关注带 [MASK] 标记的位置，并过度信赖其它未被遮盖的代码是完全正确的，这在技术上被称为“虚假相关性”。

为了打破这种局限，团队设计了两阶段学习策略：

第一阶段：基于掩码的扩散训练。 在此阶段，模型通过标准的“完形填空”任务，学习代码的局部上下文和固定模式。
第二阶段：基于编辑的扩散训练。 此阶段引入基于编辑距离的扰动（插入和删除操作），迫使模型重新审视和修正所有 token，包括那些最初未被遮盖的部分。这显著提升了模型对代码全局逻辑的理解和修复能力。

实验数据显示，引入第二阶段训练后，模型在 CanItEdit 基准测试中的 pass@1 分数比自回归模型高出 4.8%（54.3 vs 50.5）。

融合代码结构先验的约束顺序扩散

代码虽然是序列数据，但并非严格的从左到右生成。它包含很强的因果依赖关系，例如变量必须先声明后使用。完全无序的生成会忽略这一结构先验，导致性能受限。

为此，团队提出了“约束顺序训练”。在后训练阶段，模型通过自我蒸馏的方式，学习并遵循正确的代码依赖关系，从而在生成过程中尊重代码的内在逻辑。

在策略学习与高效并行解码

理论上的并行解码优势在实践中很难实现。单次并行推理的计算开销很大，如果为了抵消开-销而减少总步数，又会牺牲生成质量。

团队为此提出了“在策略学习”（On-policy Learning）范式。其目标是训练模型直接优化自身的生成过程，在保证最终输出质量的前提下，最小化生成步数 |τ|。其目标函数如下：

L_τ = E_(x0,τ)∼D[log V(x_τ) – λ * |τ|]

实践中，直接最小化步数会导致训练不稳定。团队转而采用了一个更稳定的代理损失函数，鼓励模型更高效地收敛。这一过程类似于非自回归生成文献中已有的“模式过滤”技术，通过训练隐式地“剪枝”掉低效或低质量的生成路径。

在策略学习带来的速度提升变化

从理论到工程的实现

为了平衡计算和延迟，Seed 团队采用了分块并行扩散采样方案。该方案在块与块之间保持因果顺序，同时利用 KV-caching 技术复用已生成块的信息。团队还对底层基础设施框架进行了专门优化，以高效支持分块并行推理。

优化后不同块大小的推理时间

实验结果与市场前景

在生成任务测试中，Seed Diffusion Preview 充分释放了扩散模型的并行潜力，实现了比同等规模自回归模型快 5.4 倍的速度。

更重要的是，这种高速没有以牺牲质量为代价。在多个行业基准测试中，Seed Diffusion Preview 的表现与顶尖的自回归模型相当，在代码编辑等任务上甚至超越了它们。

字节跳动发布 Seed Diffusion：代码生成速度提升5.4倍-1

这一结果表明，以 Seed Diffusion 为代表的离散扩散方法不仅有潜力成为下一代生成模型的基础框架，也预示着其广阔的应用前景。对于开发者而言，5.4倍的速度提升意味着更流畅的实时代码补全、更快速的单元测试生成和更高效的 bug 修复，这将从根本上改善人机协作编程的体验。

随着 Seed Diffusion 项目的持续探索，其在复杂推理任务中的应用潜力以及规模化定律将进一步被揭示。

未经允许不得转载：AI生产力工具 » 字节跳动发布 Seed Diffusion：代码生成速度提升5.4倍