SWE-1:ソフトウェア工学の最先端モデルの新世代が発表される
最近、業界が注目しているのは SWE-1
モデル・シリーズが正式にリリースされた。ソフトウェアエンジニアリングプロセス全体を最適化するために設計されたこのモデルシリーズは、コードを書くという従来の作業をはるかに超えることを目指している。
現在SWE-1
このシリーズには、3つの好位置にあるモデルがある:
- SWE-1この主力モデルは、ツール・コールの推論能力において、次のモデルに匹敵すると主張されている。
Claude 3.5 Sonnet
同等のボリュームでありながら、より低いランニングコスト。キャンペーン期間中は、すべての有料ユーザーが無料で体験できます(0ポイント/ユーザーチップ)。 - SWE-1-ライト軽量モデルとしてね。
SWE-1-lite
オリジナルをより高品質に置き換えるよう設計されているCascade Base
モデル有料・無料を問わず、すべてのユーザーが無制限にアクセスできます。 - SWE-1-ミニこのモデルは、コンパクトで非常にレスポンスの良いモデルです。
Windsurf Tab
受動的な体験がモチベーションの支えとなる。
しぼる SWE-1
このシリーズの動機は明確で、99%によってソフトウェア開発の効率を向上させることである。コードを書くことはソフトウェア開発ライフサイクルの一部でしかないため、「コーディング・スキル」だけを持ったモデルでは、現代のソフトウェア工学の複雑なニーズにもはや対応できない。
簡単な背景
コーディングモデルの機能は、近年著しく進歩しています。これらのモデルに対する業界の期待は、単純なオートコンプリートの提案から、単純なアプリケーションを1回のパスで確実に構築する能力へと進化しています。
しかし、既存のコーディングモデルは、以下の点で限界がある。
まず、ソフトウェア開発者であれば誰でも、彼らの時間がコードを書くことだけに費やされているわけではないことに同意するだろう。ソフトウェアエンジニアリングには、より多くの種類のタスクと、より幅広い作業インターフェースが含まれる。その結果、モデルの能力に対する期待もそれに応じて高まるはずです。理想的なモデルは、コードを読み書きできるだけでなく、端末での作業、外部の知識ベースやインターネットへのアクセス、製品のテストや体験、さらにはユーザーからのフィードバックの理解までできる必要がある。ソフトウェア開発者の仕事は、コードを書くことだけではありません。
第二に、ソフトウェア開発作業は、一般的に、時間をかけて複数の作業インターフェイスを横断し、一連の非最終的な状態を経て進めていく。現在、トップ・コーディング・ファウンデーション・モデルは、主に戦術的なレベル、例えば、最終的なコードがコンパイルされ、ユニットテストを満たすかどうかに焦点を当てるように訓練されている。しかし開発者にとって、単体テストは巨大なエンジニアリング問題の一部でしかない。現在使用可能な機能を実装する方法は複数あるかもしれないが、今後何年にもわたって反復をサポートする優れた機能を実装するための選択肢ははるかに少ない。このことが Cascade
ツールは、ユーザー主導のガイダンスで十分に機能するが、スタンドアローンのランタイムが拡張されると、パフォーマンスが著しく低下する。より高度なワークフローの自動化を達成するためには、この制限を克服しなければならない。すなわち、不完全な状態での推論や、潜在的に曖昧な結果への対処など、エンジニアリングプロセスの複雑性を完全に理解できるモデルが必要である。
ある時点で、単にコーディングスキルを向上させるだけでは、ソフトウェアエンジニアにとってもモデルにとっても、ソフトウェアエンジニアリング能力を大幅に向上させることはできなくなった。最終的なゴールは、ソフトウェアエンジニアができることすべてを加速させることであり、「ソフトウェアエンジニアリング」モデル(略してSWEモデル)の必要性は、長い間明らかであった。
SWE-1 詳細
の高頻度使用の結果に基づいている。 Windsurf Editor
プラットフォームから得た洞察をもとに、開発チームは新しいデータモデル(共有タイムライン)とトレーニング手法の構築に着手し、不完全な状態、長期にわたるタスク、複数の作業インターフェイスにわたる複雑なインタラクションを効果的にカプセル化した。
当初の目標は、このアプローチを通じて、小規模なエンジニアリング・チームと限られた計算資源でも、フロンティア・モデルの性能レベルを達成できることを実証することである。SWE-1
は、このアイデアの最初の概念実証である。
全体的にSWE-1
その性能は、すべてのフロンティア・ベース・モデルに近い。重要なことは、すべての非フロンティアモデルとオープンソースの代替モデルを凌駕していることである。ベンチマークを目的として、オフライン評価とブラインド本番実験の両方が実施された。
オフライン評価
研究開発チームは次のことを行う。 SWE-1
のパフォーマンスである。 Anthropic
シリーズ・モデル(単位 Cascade
(ツールの中で最も広く使用されているモデルの1つ)と、主要なオープンソースのコーディングモデルである Deepseek
歌で応える Qwen
比較が行われた。
会話型SWEタスクベンチマークテストは既存の Cascade
セッションは途中で始まり、課題は部分的に完了した。評価 Cascade
ユーザーの次のクエリに対するツールの対応。0~10の複合スコアは、レビュアーの有用性、効率性、正確性の評価、およびターゲットドキュメントの編集精度メトリクスの加重平均です。
このベンチマークは、次のようなことを目的としている。 Cascade
ツールによって開拓された人間とコンピュータのコラボレーションとエージェントベースのコーディングのユニークな性質。モデルがまだ完璧でない以上、部分的に完了したタスクに関するユーザー入力とシームレスに織り交ぜられる能力は、モデルの有用性を示す重要な指標である。
エンド・ツー・エンドのSWEタスク・ベンチマークテストは対話の冒頭から始まり、次のような点を評価する。 Cascade
選択された単体テストのセットを通して、入力意図を満たすツールの能力。0-10 の複合スコアは、テスト合格率とレビュアー評価の加重平均です。
このベンチマークは、モデルが独立してエンドツーエンドの問題を解決する能力を把握するために設計されている。このユースケースは、すべてのモデルが人間の介入なしに動作する能力が高まるにつれて、ますます重要になってきています。
オフライン評価の結果から、以下のことが推測される。 SWE-1
これらのタスクにおける性能は、基礎モデリング・ラボラトリーの最先端モデルの仲間入りを果たし、中規模モデルや主要なオープンソース代替モデルの最先端モデルよりも優れている。まだ絶対的な頂点には立っていないものの、主要なモデルと競合する可能性を示している。
本番環境での実験
オフラインでの評価結果を補完するため、大規模なユーザーコミュニティに依存し、本番環境での実験が実施された。これらのデイリーメトリクスを計算するために、一部のユーザーが使用しているモデルを知らずに参加するブラインドテスト実験が実施された。テストモデルは、時間の経過とともに繰り返し使用されることを測定するために、各ユーザーに対して一定に保たれた。
実験は Claude
モデルをベンチマークとする。 Cascade
このツールで最もよく使われるモデル。
ユーザー1人あたりの1日あたりの貢献行数:一定期間中に、従業員がどの程度の時間を費やしたかを測定すること。 Cascade
ツールによって書かれ、ユーザーによって積極的に受け入れられ、保持されたコードの平均行数。これは、モデルが呼び出されるたびに貢献する有用性と、長期にわたってモデルを使い続けるユーザーの意欲の両方を示す、包括的で有用な指標です。
これは、積極性とアドバイスの質のバランスを示す指標であると同時に、アウトプットのスピードとフィードバックへの対応力を反映するものであり、ユーザーの「再来店」を促すものである。
カスケード拠出率:最も少ない人数に対して Cascade
ツールで一度でも編集されたファイルの数を計算します。 Cascade
ツールの変更率。これは、モデルがユーザーによって使用される頻度と、モデルのコード貢献意欲を正規化した、有用性の尺度である。この指標は、モデルが編集したファイルのみを測定するので、使用頻度とモデル編集傾向の影響をコントロールしようとするものです。
SWE-1
のユーザー向けです。 Cascade
このツールのインタラクション・パターンは構築され、最適化されたものであるため、この生産実験でのパフォーマンスが業界トップクラスに近かったことは驚くには当たらない。
その他のモデルと分析
上のグラフではSWE-1-lite
する SWE-1
同じトレーニング方法を用いて構築された、このモデルの中規模バージョン。このモデルは、他のすべての非フロンティア、中規模モデルをリードし、オリジナルの Cascade Base
を全ユーザーに使い放題のオプションとして提供する。Cascade Base
以前は、ユーザーに広汎なコーディング支援を提供するベースモデルオプションとして使用されていました。 SWE-1-lite
アップグレードは品質と性能の向上をもたらす。
さらに、3つ目のモデルが構築された。 SWE-1-mini
.これは、フロー認識に関するトレーニング手法の多くを共有するが、受動的予測システムの待ち時間の制約内で動作するのに十分小さく、(ツール呼び出しではなく)予測アクションタスクのためにさらにトレーニングされる。この受動的予測システムは、ユーザーがコーディングしている間、インテリジェントに予測し、支援することができる。 Windsurf Tab
この経験により、バックグラウンドで状況を黙々と分析し、適切なタイミングでアドバイスを与えることができる。
これは始まりに過ぎないことを明確にする必要がある。最終的には、ソフトウェア・エンジニアリングの目標は、どの研究所の最先端モデルの性能に匹敵するだけでなく、それを凌駕することである。この目標を推進するためのエンジンは整っており、将来はこの戦略に大きく投資されることになると考える理由は、これまで以上に多くある。
コア技術:フロー・アウェア・システム
前述したように、"高い頻度で利用されている "というデータに基づいている。 Windsurf Editor
プラットフォームから得た洞察"説明する必要があるのは Windsurf Editor
プラットフォームがどのように貢献したか SWE-1
そして、なぜそのモデルが最終的にベストになると確信しているのか。
重要なのは、いかに漸進的な反復を実現するかである。
プロセス認識とは何か?構築 Windsurf Editor
このプラットフォームは、ユーザーとAIの統合された状態の間にシームレスな相互関係を生み出すように設計されている。AIが行うことは何でも、人間が観察し操作することができるはずであり、同様に、人間が行うことは何でも、AIが観察し操作することができるはずである。このような共有されたタイムラインの認識は「フロー認識」と呼ばれ、協調エージェント体験が「AIフロー」と呼ばれる所以である。
なぜプロセス認識をサポートするエディターが重要なのか?簡単に言えば、どのSWEモデルも、本当にそれだけですべての作業をこなせるようになるには、しばらくの時間がかかるということだ。この移行期において、プロセスアウェアネスは適切なインタラクションの形を可能にします。つまり、モデルの既存の能力をフルに活用し、うまくいかないときには人間がそれを修正するために介入し、そしてモデルは人間の行動に基づいて構築を続けることができるのです。これにより、シームレスで自然な切り替えが可能になる。
つまり、共有されたタイムラインの中で、ユーザーの介入の有無にかかわらず、モデルが完了したステップを観察することで、任意の瞬間にWindsurf
チームは常に、現行モデルの真の能力の限界を認識している。ユーザーがモデルの次の改良点をどこに求めているのか、大規模で正確なイメージを得ることができるのだ。このようなメカニズムがあるからこそ、今日のモデルを迅速に構築することができるのだ。 SWE-1
したがって、最終的には絶対的に最良のSWEモデルが構築されると確信している。
実際、注目されているかどうかは別として、共有タイムラインの構築は、常に Cascade
このツールの多くの主要機能の背後にある指針となるビジョン:
- ある
Cascade
このツールがリリースされたとき、強調されていた特徴のひとつは、ユーザーがテキストエディタでいくつかの編集をしてからCascade
に「continue」と入力する。Cascade
そして、ユーザーによる編集を自動的に統合する。これはテキストエディタの認識を反映している。 - 間もなく、端末出力もプロセスセンスに統合され、以下のことが可能になった。
Cascade
このツールは、ユーザーがコードを実行中に遭遇したエラーをシームレスに感知する。これはターミナルの認識を反映している。 - ある
Wave 4
このバージョンでは、プレビューの概念が導入された。Cascade
このツールは、ユーザーが相互作用しているフロントエンドのコンポーネントやバグを理解することができる。これはブラウザに対する基本的な認識を反映している。
しかしだ。Windsurf
プラットフォーム内すべてプロセス・アウェアネスというコンセプトの上に成り立っている。 Cascade
道具だ。Tab
関数もまた、同じ共有タイムラインのコンセプトに基づいて構築されている。メッセージを Cascade
ツールがコンテキストを追加するとき、それは実際にコンテキストを Tab
コンテキストを追加する。単に固定されたコンテキストウィンドウに適当に情報を詰め込むのではなく、ユーザーの行動や目標を最も反映した共有タイムラインを注意深く構築するのだ。そのために Tab
以下の特徴がある:
- ユーザーの端末コマンドを感知(Wave 5)
- ユーザーがクリップボードから何をコピーしたかを感知する(Wave 5)
- 電流を感知する
Cascade
ダイアログ(ウェーブ5) - IDEでユーザー検索を感知する(Wave 6)
このリリースは、ランダムな機能ではない。このリリースは、ソフトウェアエンジニアリングの作業における共有タイムラインの最も豊かな表現を構築することに捧げられている。既製のモデルを使用する場合でも、共有タイムラインの情報の存在感によって、そのツールは著しく改善されてきた。そして今、自分で開発したSWEモデルによって、本当にフライホイールを始動させることができる。モデルにタイムラインを消化させ、より広いタイムライン上で行動を開始させるのだ。
将来展望
前述の通りだ。SWE-1
この偉業は、製品およびインフラストラクチャー企業としての強みを生かし、小規模ながら非常に献身的なチームによって実現した。これは、真に最先端の品質モデルを構築する最初の試みであり、その成果を誇りに思う一方で、これが始まりに過ぎないことを十分に認識している。すでに、独自のアプリケーション、システム、モデルのフライホイールの力が強調されている。これは、アプリケーション・レベルとアクティビティに由来する洞察の規模がなければ、基礎となるモデル・ラボ自体が持っていない可能性のある能力である。
未来はまだ続く SWE
モデル・ファミリー改良のニュース。最高のパフォーマンスと低コストをユーザーに提供するため、さらなる投資が行われる。 Windsurf
このプラットフォームは、より大きく、より良いプロジェクトを構築する。