海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI新闻

字节跳动发布 Seed Diffusion:代码生成速度提升5.4倍

2025-08-02 37

字节跳动 Seed 团队发布了一款名为 Seed Diffusion Preview 的实验性语言模型,专门用于代码生成。该模型基于离散状态扩散技术,实现了 2146 token/s 的推理速度,比同等规模的自回归(Autoregressive)模型快了 5.4 倍,同时在多个核心代码基准测试中保持了相当的性能。

字节跳动发布 Seed Diffusion:代码生成速度提升5.4倍-1

这一成果为代码模型的速度与质量帕累托前沿(speed-quality Pareto frontier)树立了新的标杆,证明了离散扩散方法在代码生成领域的巨大潜力。

自回归模型的“速度枷锁”

当前主流的代码生成模型大多采用自回归架构,它们通过逐个预测下一个代码 token 来生成程序,类似于人类写作时“逐字输出”。这种机制保证了代码的连贯性,但也带来了难以克服的速度瓶颈。由于每个 token 的生成都依赖于前一个 token,整个过程无法高效并行,导致在处理长代码序列时速度较慢。

Seed Diffusion 采用的扩散模型(Diffusion Model)则从根本上改变了游戏规则。扩散模型最初在图像生成领域大放异彩,其工作方式更像是“由模糊到清晰”的绘画过程。对于代码生成,它可以从一个充满噪声(或称 [MASK] 标记)的模板开始,通过多步“去噪”并行地恢复出完整的、结构正确的代码。理论上,这种并行解码的能力可以极大地提升生成速度。

-2

图1:Seed Diffusion 在八个开源代码基准上的推理速度
上图展示了 Seed Diffusion 的推理速度。由于测试条件不同,直接与其他模型进行基准比较存在挑战。例如,Mercury Coder 是在专有数据集和 H100 硬件上评估的,而 Gemini Diffusion 的速度数据则来自未知硬件上的混合任务基准。

提速背后的核心方法

Seed 团队为了将扩散模型的理论优势转化为实际应用,引入了多项关键技术。

从模式填充到逻辑编辑的两阶段学习

传统的扩散模型训练方式存在一个弊端:模型只会关注带 [MASK] 标记的位置,并过度信赖其它未被遮盖的代码是完全正确的,这在技术上被称为“虚假相关性”。

为了打破这种局限,团队设计了两阶段学习策略:

  1. 第一阶段:基于掩码的扩散训练。 在此阶段,模型通过标准的“完形填空”任务,学习代码的局部上下文和固定模式。
  2. 第二阶段:基于编辑的扩散训练。 此阶段引入基于编辑距离的扰动(插入和删除操作),迫使模型重新审视和修正所有 token,包括那些最初未被遮盖的部分。这显著提升了模型对代码全局逻辑的理解和修复能力。

实验数据显示,引入第二阶段训练后,模型在 CanItEdit 基准测试中的 pass@1 分数比自回归模型高出 4.8%(54.3 vs 50.5)。

融合代码结构先验的约束顺序扩散

代码虽然是序列数据,但并非严格的从左到右生成。它包含很强的因果依赖关系,例如变量必须先声明后使用。完全无序的生成会忽略这一结构先验,导致性能受限。

为此,团队提出了“约束顺序训练”。在后训练阶段,模型通过自我蒸馏的方式,学习并遵循正确的代码依赖关系,从而在生成过程中尊重代码的内在逻辑。

在策略学习与高效并行解码

理论上的并行解码优势在实践中很难实现。单次并行推理的计算开销很大,如果为了抵消开-销而减少总步数,又会牺牲生成质量。

团队为此提出了“在策略学习”(On-policy Learning)范式。其目标是训练模型直接优化自身的生成过程,在保证最终输出质量的前提下,最小化生成步数 |τ|。其目标函数如下:

Lτ = E(x0,τ)∼D[log V(xτ) – λ * |τ|]

实践中,直接最小化步数会导致训练不稳定。团队转而采用了一个更稳定的代理损失函数,鼓励模型更高效地收敛。这一过程类似于非自回归生成文献中已有的“模式过滤”技术,通过训练隐式地“剪枝”掉低效或低质量的生成路径。

-3

在策略学习带来的速度提升变化

从理论到工程的实现

为了平衡计算和延迟,Seed 团队采用了分块并行扩散采样方案。该方案在块与块之间保持因果顺序,同时利用 KV-caching 技术复用已生成块的信息。团队还对底层基础设施框架进行了专门优化,以高效支持分块并行推理。

-4

优化后不同块大小的推理时间

实验结果与市场前景

在生成任务测试中,Seed Diffusion Preview 充分释放了扩散模型的并行潜力,实现了比同等规模自回归模型快 5.4 倍的速度。

更重要的是,这种高速没有以牺牲质量为代价。在多个行业基准测试中,Seed Diffusion Preview 的表现与顶尖的自回归模型相当,在代码编辑等任务上甚至超越了它们。

字节跳动发布 Seed Diffusion:代码生成速度提升5.4倍-1

这一结果表明,以 Seed Diffusion 为代表的离散扩散方法不仅有潜力成为下一代生成模型的基础框架,也预示着其广阔的应用前景。对于开发者而言,5.4倍的速度提升意味着更流畅的实时代码补全、更快速的单元测试生成和更高效的 bug 修复,这将从根本上改善人机协作编程的体验。

随着 Seed Diffusion 项目的持续探索,其在复杂推理任务中的应用潜力以及规模化定律将进一步被揭示。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文