シード・ディフュージョンは、複数の権威あるコードレビューベンチマークで優れたパフォーマンスを示しています:
- 性能は、LiveCodeBench、Bigcode Bench、Mbpp、Human Evalなどのベンチマークにおいて、同じサイズの自己回帰モデルに匹敵する。
- コード編集タスクにおいて、拡散モデルは、その大局的な観点の特性により、従来の自己回帰モデルよりも優れている。
- 変数名の変更、関数のリファクタリングなど、構造化された推論を必要とするタスクの処理に特に長けており、修正のグローバルな一貫性を確保できる。
これは主に、マスク拡散訓練によってコード補完能力を学習し、編集拡散訓練によってグローバル合理性を向上させるという、2段階の訓練メカニズムによるものだ。
この答えは記事から得たものである。シードの拡散:次世代アーキテクチャのための高速言語モデルの検証について