Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Windsurf 发布的软件工程专用模型 SWE-1-1

SWE-1: Eine neue Generation hochmoderner Modelle für die Softwareentwicklung wird vorgestellt

In jüngster Zeit hat sich die Aufmerksamkeit der Branche SWE-1 Die Modellreihe wird offiziell vorgestellt. Die Modellfamilie wurde entwickelt, um den gesamten Softwareentwicklungsprozess zu optimieren, und geht weit über die traditionelle Aufgabe des Codeschreibens hinaus.

Aktuell.SWE-1Die Familie umfasst drei gut positionierte Modelle:

  • SWE-1Dieses Arbeitspferd soll in Bezug auf die Argumentationsfähigkeit von Werkzeugaufrufen vergleichbar sein mit dem Claude 3.5 Sonnet Äquivalentes Volumen bei geringeren Betriebskosten. Während des Aktionszeitraums können alle zahlenden Nutzer das Programm kostenlos nutzen (0 Punkte/Nutzertipps).
  • SWE-1-leicht:: Als leichtes Modell.SWE-1-liteEntwickelt, um das Original durch eine höhere Qualität zu ersetzen Cascade Base Modelle. Unbegrenzter Zugang für alle Nutzer, ob bezahlt oder unbezahlt.
  • SWE-1-miniDieses kompakte und extrem reaktionsschnelle Modell ist für alle Benutzer des Windsurf Tab Passive Erfahrungen bieten eine motivierende Unterstützung.

ausbeuten (eine Ressource) SWE-1 Die Motivation für die Serie ist klar: die Effizienz der Softwareentwicklung durch 99% zu verbessern. Modelle mit nur "Coding Skills" können den komplexen Anforderungen des modernen Software-Engineerings nicht mehr gerecht werden, denn das Schreiben von Code ist nur ein Teil des Softwareentwicklungslebenszyklus.

Ein kurzer Blick auf den Hintergrund

Die Fähigkeiten von Codierungsmodellen haben sich in den letzten Jahren erheblich weiterentwickelt. Die Erwartungen der Industrie an diese Modelle haben sich von einfachen Vorschlägen zur automatischen Vervollständigung hin zu der Fähigkeit entwickelt, einfache Anwendungen in einem einzigen Durchgang zuverlässig zu erstellen.

Die bestehenden Kodierungsmodelle weisen jedoch in folgender Hinsicht ihre Grenzen auf.

Erstens wird jeder Softwareentwickler zustimmen, dass seine Zeit nicht nur mit dem Schreiben von Code verbracht wird. Software-Engineering umfasst mehr Arten von Aufgaben und ein breiteres Spektrum von Arbeitsschnittstellen. Dementsprechend sollten auch die Erwartungen an die Fähigkeiten eines Modells steigen. Das ideale Modell sollte nicht nur in der Lage sein, Code zu lesen und zu schreiben, sondern auch in einem Terminal zu arbeiten, auf externe Wissensdatenbanken und das Internet zuzugreifen, Produkte zu testen und zu erleben und sogar Benutzerfeedback zu verstehen. Die Arbeit eines Softwareentwicklers besteht aus weit mehr als dem Schreiben von Code.

Zweitens werden bei der Softwareentwicklung in der Regel im Laufe der Zeit mehrere Arbeitsschnittstellen durchlaufen und eine Reihe von nicht endgültigen Zuständen erreicht. Gegenwärtig sind die besten Codierungsgrundlagen immer noch darauf trainiert, sich in erster Linie auf die taktische Ebene zu konzentrieren - zum Beispiel darauf, ob der endgültige Code kompilierbar ist und die Unit-Tests erfüllt. Für Entwickler sind Unit-Tests jedoch nur ein Teil eines großen technischen Problems. Es mag mehrere Möglichkeiten geben, eine Funktion zu implementieren, die derzeit brauchbar ist, aber es gibt weit weniger Möglichkeiten, eine großartige Funktion zu implementieren, die über Jahre hinweg Iterationen unterstützen wird. Dies erklärt, warum viele Modelle in Cascade Tools können mit benutzerinitiierten Anleitungen gut funktionieren, aber die Leistung nimmt deutlich ab, sobald die eigenständige Laufzeit verlängert wird. Um einen höheren Grad der Automatisierung von Arbeitsabläufen zu erreichen, muss diese Einschränkung überwunden werden, d. h. das Modell muss in der Lage sein, die gesamte Komplexität des Engineering-Prozesses zu verstehen: Schlussfolgerungen in einem unvollständigen Zustand und Umgang mit potenziell mehrdeutigen Ergebnissen.

Irgendwann bringt die bloße Verbesserung der Programmierkenntnisse keine wesentliche Verbesserung der Software-Engineering-Fähigkeiten mehr, weder für den Software-Ingenieur noch für das Modell. Das ultimative Ziel ist es, alles, was ein Software-Ingenieur tun kann, zu beschleunigen, so dass die Notwendigkeit eines "Software-Engineering"-Modells (oder kurz SWE-Modell) schon seit langem klar ist.

SWE-1 Einzelheit

Ausgehend von den Ergebnissen der hochfrequenten Nutzung von Windsurf Editor Mit den aus der Plattform gewonnenen Erkenntnissen machte sich das Entwicklungsteam daran, ein neues Datenmodell (gemeinsame Zeitleiste) und eine Schulungsmethodik zu erstellen, die unvollständige Zustände, lang laufende Aufgaben und komplexe Interaktionen über mehrere Arbeitsschnittstellen hinweg effektiv kapselt.

Mit diesem Ansatz soll zunächst gezeigt werden, dass selbst mit einem kleinen Ingenieurteam und begrenzten Rechenressourcen das Leistungsniveau von Grenzmodellen erreicht werden kann.SWE-1 ist ein erster Proof of Concept für diese Idee.

Insgesamt.SWE-1 Die Leistung liegt nahe an der aller Grenzwertmodelle. Vor allem aber übertrifft sie alle Nicht-Frontier-Modelle und Open-Source-Alternativen. Zu Benchmarking-Zwecken wurden sowohl Offline-Evaluierungen als auch blinde Produktionsexperimente durchgeführt.

Offline-Bewertung

Das F&E-Team wird SWE-1 Die Leistung des Anthropic Serienmodelle (in Cascade (eines der am häufigsten verwendeten Modelle im Tool) und das führende Open-Source-Codierungsmodell Deepseek im Gesang antworten Qwen Es wurden Vergleiche angestellt.

Konversations-SWE-Aufgaben-Benchmark: Der Test wird von einem bestehenden Cascade Die Sitzung beginnt in der Mitte und die Aufgabe ist teilweise abgeschlossen. Bewertung Cascade Wie das Tool auf die nächste Anfrage des Benutzers antwortet. Die zusammengesetzte Punktzahl von 0-10 ist ein gewichteter Durchschnitt aus den Bewertungen für Hilfsbereitschaft, Effizienz und Korrektheit des Bewerters sowie den redaktionellen Genauigkeitsmetriken des Zieldokuments.

Dieser Benchmark soll Folgendes erfassen Cascade Die Einzigartigkeit der Mensch-Computer-Zusammenarbeit und der agentenbasierten Kodierung, für die das Tool Pionierarbeit leistet. Solange das Modell noch nicht perfekt ist, ist die Fähigkeit zur nahtlosen Verflechtung mit Benutzereingaben zu teilweise abgeschlossenen Aufgaben ein wichtiger Indikator für die Nützlichkeit des Modells.

Windsurf 发布的软件工程专用模型 SWE-1-2

End-to-End-Benchmark für SWE-AufgabenDer Test beginnt ganz am Anfang des Dialogs und bewertet die Cascade Die Fähigkeit des Werkzeugs, die Eingabeabsicht durch eine ausgewählte Reihe von Einheitstests zu erfüllen. Die zusammengesetzte Punktzahl von 0-10 ist ein gewichteter Durchschnitt aus den Erfolgsquoten der Tests und den Bewertungen der Prüfer.

Dieser Benchmark soll die Fähigkeit von Modellen erfassen, eigenständig End-to-End-Probleme zu lösen. Dieser Anwendungsfall wird immer wichtiger, da die Fähigkeit aller Modelle, ohne menschliches Eingreifen zu arbeiten, zunimmt.

Windsurf 发布的软件工程专用模型 SWE-1-3

Ausgehend von den Ergebnissen der Offline-Bewertung kann davon ausgegangen werden, dass SWE-1 Die Leistung bei diesen Aufgaben hat sich in die Reihe der Spitzenmodelle des Fundamental Modelling Laboratory geschoben und ist den mittelgroßen Modellen und Spitzenmodellen der führenden Open-Source-Alternativen überlegen. Auch wenn es noch nicht zur absoluten Spitze gehört, so hat es doch gezeigt, dass es das Potenzial hat, mit führenden Modellen zu konkurrieren.

Experimente in der Produktionsumgebung

Um die Ergebnisse der Offline-Evaluierung zu ergänzen, wurden Experimente in einer Produktionsumgebung durchgeführt, die sich auf eine große Gemeinschaft von Nutzern stützt. Zur Berechnung dieser täglichen Metriken wurde ein Blindtest durchgeführt, an dem einige Nutzer teilnahmen, ohne zu wissen, welches Modell sie benutzten. Das Testmodell wurde für jeden Nutzer konstant gehalten, um seine wiederholte Nutzung im Laufe der Zeit zu messen.

Die Experimente wurden in die Claude Modelle als Benchmarks, da sie in der Vergangenheit und auch heute noch die Cascade Das am häufigsten verwendete Modell in diesem Tool.

Täglich eingebrachte Zeilen pro BenutzerMessung der Zeit, die in einem bestimmten Zeitraum von der Cascade Die durchschnittliche Anzahl der Codezeilen, die von dem Werkzeug geschrieben und von den Benutzern aktiv akzeptiert und beibehalten werden. Dies ist ein umfassender und hilfreicher Indikator sowohl für die Nützlichkeit des Beitrags des Modells bei jedem Aufruf als auch für die Bereitschaft der Nutzer, das Modell im Laufe der Zeit weiter zu verwenden.

Dies gilt als sehr aussagekräftiger Indikator für das Gleichgewicht zwischen Proaktivität und Qualität der Beratung und spiegelt gleichzeitig die Schnelligkeit des Outputs und die Reaktion auf Rückmeldungen wider, die zusammengenommen die Nutzer dazu bringen, wiederzukommen".

Windsurf 发布的软件工程专用模型 SWE-1-4

Kaskade BeitragssatzFür die geringste Anzahl von Personen, die in der Vergangenheit Cascade Dateien, die einmal mit dem Werkzeug bearbeitet wurden, berechnet diese Metrik die Anzahl der Dateien aus dem Cascade Prozentualer Anteil der Änderungen am Tool. Dies ist ein Maß für die Hilfsbereitschaft, das auf die Häufigkeit der Nutzung des Modells durch den Benutzer und die Bereitschaft des Modells, Code beizutragen, normiert ist. Da diese Kennzahl nur die mit dem Modell bearbeiteten Dateien misst, versucht sie, die Auswirkungen der Häufigkeit der Nutzung und der Bereitschaft zur Modellbearbeitung zu kontrollieren.

Windsurf 发布的软件工程专用模型 SWE-1-5

SWE-1 Es ist für Benutzer mit Cascade Die Interaktionsmuster des Werkzeugs wurden entwickelt und optimiert, so dass es nicht überrascht, dass seine Leistung bei diesen Produktionsexperimenten nahezu branchenführend war.

Andere Modelle und Analysen

In der obigen Tabelle sind dieSWE-1-lite handeln als SWE-1 Eine mittelgroße Version des Modells, die mit der gleichen Trainingsmethodik erstellt wurde. Es ist allen anderen mittelgroßen Modellen, die nicht an der Grenze liegen, überlegen und wird das ursprüngliche Modell Cascade Base Modell eine unbegrenzte Nutzungsmöglichkeit für alle Nutzer sein.Cascade Base Die bisher als Basismodell verwendete Option, die den Nutzern eine durchgängige Codierungshilfe bietet, ist die SWE-1-lite Die Upgrades bringen mehr Qualität und Leistung.

Darüber hinaus wurde ein drittes Modell erstellt SWE-1-mini. Es ist jedoch klein genug, um innerhalb der Latenzbeschränkungen eines passiven Vorhersagesystems zu operieren, und wird darüber hinaus für prädiktive Handlungsaufgaben (und nicht für Tool-Aufrufe) trainiert. Dieses passive Vorhersagesystem ist in der Lage, den Benutzer während des Codierens auf intelligente Weise zu antizipieren und zu unterstützen, zum Beispiel bei Windsurf Tab Dank dieser Erfahrung kann es den Kontext im Hintergrund unauffällig analysieren und zum richtigen Zeitpunkt Ratschläge geben.

Es muss klar sein, dass dies erst der Anfang ist. Letztlich geht es bei der Softwareentwicklung nicht nur darum, mit den Spitzenmodellen der Forschungslabors gleichzuziehen, sondern sie zu übertreffen. Es gibt mehr Grund als je zuvor zu glauben, dass der Motor zur Erreichung dieses Ziels bereits vorhanden ist, und die Zukunft wird stark in diese Strategie investiert werden.

Kerntechnologie: Flow-Aware System

Es wurde bereits erwähnt, dass "auf der Grundlage der Daten aus der hochfrequenten Nutzung des Windsurf Editor Erkenntnisse aus der Plattform". Es ist notwendig zu erklären Windsurf Editor Wie hat die Plattform zum Erfolg der SWE-1 geboren wurde, und warum sie davon überzeugt ist, dass ihr Modell letztendlich das beste sein wird.

Der Schlüssel ist, wie man eine inkrementelle Iteration erreicht: Flussbewusstsein.

Was ist Prozessbewusstsein? Gebäude Windsurf Editor Die Plattform ist so konzipiert, dass die Zustände von Nutzer und KI nahtlos ineinander übergehen. Alles, was die KI tut, sollte der Mensch beobachten und beeinflussen können, und umgekehrt sollte alles, was der Mensch tut, auch die KI beobachten und beeinflussen können. Diese Wahrnehmung einer gemeinsamen Zeitlinie wird als "Flow-Bewusstsein" bezeichnet, weshalb die Erfahrung mit kollaborativen Agenten auch als "AI-Flows" bezeichnet wird.

Warum ist ein Editor, der das Prozessbewusstsein unterstützt, so wichtig? Einfach ausgedrückt: Es wird noch einige Zeit dauern, bis ein SWE-Modell wirklich alle Aufgaben selbständig erledigen kann. In dieser Übergangsphase ermöglicht das Prozessbewusstsein die richtige Form der Interaktion: Die vorhandenen Fähigkeiten des Modells werden voll ausgeschöpft, der Mensch kann eingreifen und korrigieren, wenn etwas schief läuft, und das Modell kann auf der Grundlage menschlicher Aktionen weiterbauen. Dies ermöglicht einen nahtlosen, natürlichen Übergang.

Das bedeutet, dass zu jedem beliebigen Zeitpunkt durch die Beobachtung der Schritte, die das Modell mit und ohne Benutzereingriff innerhalb der gemeinsamen Zeitleiste durchführt, dieWindsurf Das Team ist sich stets der tatsächlichen Kapazitätsgrenzen des aktuellen Modells bewusst. Es ist in der Lage, sich ein umfassendes und genaues Bild davon zu machen, wo die Nutzer ihre Modelle als nächstes verbessern wollen. Dieser Mechanismus ermöglicht es, die Modelle schnell auf den heutigen Stand zu bringen. SWE-1 erreicht, und daher zuversichtlich, dass das absolut beste SWE-Modell schließlich erstellt werden wird.

Ob es nun bemerkt wurde oder nicht, die Erstellung gemeinsamer Zeitleisten war schon immer das Cascade Der Leitgedanke, der hinter vielen der Hauptfunktionen des Tools steht:

  • existieren Cascade Bei der Veröffentlichung des Tools wurde unter anderem die Möglichkeit hervorgehoben, dass die Benutzer einige Änderungen in einem Texteditor vornehmen können und dann Cascade Geben Sie "weiter" in das FeldCascade Die vom Benutzer vorgenommenen Änderungen werden dann automatisch integriert.Dies entspricht der Wahrnehmung eines Texteditors.
  • Bald darauf wurden auch die Ausgänge der Terminals in den Prozess-Sense integriert, so dass die Cascade Das Tool erkennt nahtlos die Fehler, auf die der Benutzer bei der Ausführung des Codes stößt.Dies spiegelt die Wahrnehmung des Terminals wider.
  • existieren Wave 4 In dieser Version wurde das Konzept der Vorschauen eingeführt, damit die Cascade Das Tool ist in der Lage, ein Verständnis für die Frontend-Komponenten oder Fehler zu entwickeln, mit denen der Benutzer interagiert und an denen er interessiert ist.Dies spiegelt eine grundlegende Wahrnehmung des Browsers wider.

Allerdings.Windsurf auf der Plattformallesberuhen auf dem Konzept des Prozessbewusstseins, nicht nur auf dem Cascade Werkzeuge.Tab basiert ebenfalls auf dem gleichen Konzept der gemeinsamen Zeitleiste. Beim Senden einer Nachricht an die Cascade Wenn das Werkzeug Kontext hinzufügt, fügt es tatsächlich Kontext zu der Tab Kontext hinzufügen. Es geht nicht darum, einfach wahllos mehr Informationen in ein festes Kontextfenster zu packen, sondern eine gemeinsame Zeitleiste zu erstellen, die das Verhalten und die Ziele der Nutzer am besten widerspiegelt. Aus diesem Grund ist die Version von Tab Die folgenden Merkmale sind verfügbar:

  • Erfassen der Terminalbefehle des Benutzers (Wave 5)
  • Erkennt, was der Benutzer aus der Zwischenablage kopiert hat (Wave 5)
  • Erfassen des Stroms Cascade Dialog (Welle 5)
  • Erkennung der Benutzersuche in der IDE (Welle 6)

Die Veröffentlichung ist keine zufällige Funktion. Sie ist darauf ausgerichtet, die umfangreichste Darstellung der gemeinsamen Zeitachse der Softwareentwicklungsarbeit zu erstellen. Selbst bei der Verwendung von Standardmodellen haben sich deren Werkzeuge durch das bloße Vorhandensein von Informationen in der gemeinsamen Zeitleiste erheblich verbessert. Und jetzt, mit dem selbst entwickelten SWE-Modell, ist es möglich, das Schwungrad wirklich in Gang zu setzen: Das Modell kann die Zeitachse verdauen und Maßnahmen auf einer immer breiteren Zeitachse ergreifen.

Zukunftsaussichten

Wie bereits erwähnt.SWE-1 Diese Leistung wurde von einem kleinen, aber sehr engagierten Team erbracht, das auf seinen Stärken als Produkt- und Infrastrukturunternehmen aufbaute. Es stellt den ersten Versuch dar, ein wirklich modernes Qualitätsmodell zu entwickeln, und obwohl das Unternehmen stolz auf die Ergebnisse ist, ist es sich bewusst, dass dies erst der Anfang ist. Bereits jetzt wurde die Stärke seines einzigartigen Anwendungs-, System- und Modell-Schwungrads hervorgehoben - eine Fähigkeit, über die selbst das zugrunde liegende Modelllabor nicht verfügen könnte, wenn es nicht auf der Ebene der Anwendungen und der von den Aktivitäten abgeleiteten Erkenntnisse arbeitet.

Auch in Zukunft wird man von SWE Neuigkeiten über Verbesserungen der Modellfamilie. Es werden weitere Investitionen getätigt, um den Nutzern die beste Leistung und die niedrigsten Kosten zu bieten, damit sie weiterhin die Windsurf Die Plattform ermöglicht die Entwicklung größerer und besserer Projekte.

0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch