Anthropisch Das Unternehmen hat sein neuestes Flaggschiffmodell veröffentlicht Claude Sonnet 4.5Es ist das leistungsfähigste Kodierungsmodell der Welt. Es handelt sich nicht nur um eine reguläre Iteration des Modells, sondern um einen großen Sprung nach vorn bei der Konstruktion von KI-Intelligenzen (Agenten), Computeroperationen und komplexen Schlussfolgerungen.
Code ist der Eckpfeiler der digitalen Welt. Er steuert jede App, jede Tabellenkalkulation und jedes Softwaretool, das wir täglich nutzen. Das Verstehen und Navigieren in diesen Tools sowie das Durchdenken komplexer Probleme ist das Herzstück moderner Produktivität.Claude Sonnet 4.5 wurde veröffentlicht, um diese Fähigkeit auf ein neues Niveau zu heben.
Die Veröffentlichung des neuen Modells wird begleitet von einer Reihe von Bewertungen der Claude Eine wichtige Verbesserung der Produktökologie:
- Claude Code-VerbesserungenDie neue Funktion "Checkpoints" ermöglicht es den Benutzern, ihren Fortschritt zu speichern und jederzeit zu einem früheren Zustand zurückzukehren. Auch die Terminalschnittstelle wurde mit der Einführung der nativen
VS CodeErweiterung. - Erweiterung der API-Fähigkeit: in
Claude APIEs wurden neue kontextbezogene Bearbeitungsfunktionen und Speicherwerkzeuge eingeführt, damit KI-Intelligenzen Aufgaben mit längeren Laufzeiten und höherer Komplexität bewältigen können. - Integration von Funktionen in die Anwendung: in
ClaudeAnwendung können Benutzer nun direkt im Dialog Code ausführen und Dateien erstellen (z. B. Tabellenkalkulationen, Diashows und Dokumente). - Entwickler-Tools öffnen: Freigabe
Claude Agent SDKwirdAnthropicInterne Verwendung zur ErstellungClaude CodeInfrastruktur, die allen Entwicklern offen steht.
Claude Sonnet 4.5 wurde heute vollständig eingeführt. Entwickler können auf die Claude API Aufforderungen claude-sonnet-4-5 zu verwenden. Der Preis ist vergleichbar mit dem der vorherigen Generation des Claude Sonnet 4 Konsistent, für jede Million Eingänge/Ausgänge Token 3/15 USD.
Intelligenz und Leistung auf höchstem Niveau
Claude Sonnet 4.5 existieren SWE-bench Verified Das beste aktuelle Ergebnis in der Überprüfung. Diese Benchmark wurde erreicht durch die Erfassung und Validierung von GitHub auf reale Software-Engineering-Probleme, um die realen Codierungs- und Software-Reparaturfähigkeiten von KI-Modellen zu messen. Bei Tests in der realen Welt werden dieClaude Sonnet 4.5 Fähigkeit, sich mehr als 30 Stunden lang auf komplexe mehrstufige Aufgaben zu konzentrieren.

Was die Computerkompetenz betrifft.Claude Sonnet 4.5 Der gleiche große Sprung nach vorn ist gemacht worden. Unter OSWorld Im Benchmark-Test erzielte es einen hervorragenden Wert von 61,41 TP3T.OSWorld Es wurde entwickelt, um die Fähigkeit von KI-Modellen zu bewerten, echte Computeraufgaben wie Dateiverwaltung, Softwareinstallation und Systemkonfiguration auszuführen. Erst vor vier Monaten hat dieSonnet 4 Mit einem Spitzenwert von 42,21 TP3T in diesem Test ist die Verbesserung des neuen Modells offensichtlich.
Diese Fähigkeit wurde übernommen Claude for Chrome Die Erweiterung konnte angewendet werden. In dem unten stehenden Demo-Video wird die Claude Wie man direkt im Browser arbeitet, einschließlich des Navigierens auf Websites, des Ausfüllens von Tabellen und des Erledigens zugewiesener Aufgaben.
Neben der Codierung und der Computernutzung hat das Modell auch bei allgemeineren Beurteilungen wie logischem Denken und Mathematik deutliche Verbesserungen gezeigt:

In Berufsfeldern wie Finanzen, Recht, Medizin und MINT haben Experten festgestellt, dass Claude Sonnet 4.5 Vergleichen Sie dies mit Opus 4.1 innerhalb des alten Modells einen qualitativen Sprung in Bezug auf Fachwissen und Argumentationsfähigkeit.
| Finanzen | Gesetzgebung | Medizinstudium | STEM |
|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
Das bisher am stärksten "angepasste" Grenzmodell
Neben seiner hohen Leistungsfähigkeit ist derClaude Sonnet 4.5 auch Anthropic Das bisher am stärksten "ausgerichtete" Grenzmodell. Model Alignment soll sicherstellen, dass das Verhalten der KI mit den menschlichen Absichten und Werten übereinstimmt. Durch verbesserte Fähigkeiten und umfassende Sicherheitsschulungen wird dieAnthropic Erhebliche Verbesserung des Verhaltens des Modells, indem unerwünschte Tendenzen wie Schmeichelei, Täuschung, Machtstreben und Ermutigung zu Wahnvorstellungen reduziert wurden.
für modellierte Intelligenzen und Computernutzungsfähigkeiten.Anthropic Erhebliche Fortschritte wurden auch bei der Abwehr von Cue-Injection-Angriffen erzielt. Cue-Word-Injection ist eine der größten Gefahren, denen KI-Intelligenzen heute ausgesetzt sind. Ein böswilliger Nutzer kann die ursprünglichen Anweisungen einer KI durch geschickt konstruierte Eingaben missbrauchen und sie so zu unbeabsichtigten oder schädlichen Aktionen veranlassen.

Claude Sonnet 4.5 existieren Anthropic Die Freigabe erfolgt im Rahmen der KI-Sicherheitsstufe 3 (ASL-3), die gewährleistet, dass die Robustheit des Modells mit angemessenen Sicherheitsvorkehrungen kombiniert wird. Dazu gehören Klassifikatoren, die potenziell gefährliche Eingaben und Ausgaben erkennen können, insbesondere im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Waffen (CBRN).
Obwohl diese Klassifikatoren manchmal den normalen Inhalt falsch wiedergeben können, ist die Anthropic hat die Fehlalarmrate im Vergleich zum Original um das Zehnfache reduziert und bietet den Nutzern die Möglichkeit, nahtlos zur Sonnet 4 Optionen für das Modell.
Claude Agent SDK: Ein zentrales Werkzeug für den offenen Aufbau intelligenter Körper
Anthropic Es dauerte mehr als sechs Monate, um die Claude CodeDas Team hat viel Erfahrung mit dem Aufbau und der Entwicklung von KI-Intelligenzen gesammelt. Sie haben viele schwierige Probleme gelöst: wie man Intelligenzen dazu bringt, den Speicher bei langen Aufgaben effektiv zu verwalten, wie man Erlaubnissysteme entwirft, die ein Gleichgewicht zwischen Autonomie und Benutzerkontrolle herstellen, und wie man mehrere Teilintelligenzen koordiniert, um gemeinsame Ziele zu erreichen.
Jetzt.Anthropic Bündelung dieser Erfahrungen und Werkzeuge in Claude Agent SDK Offen für alle Entwickler. Das SDK ist nicht nur für Codierungsaufgaben gedacht, sondern bietet eine solide Grundlage für den Aufbau komplexer Intelligenzen aller Art. Dieser Schritt ist ein klares Signal:Anthropic Nicht nur, um leistungsstarke Modelle bereitzustellen, sondern auch, um Entwickler in die Lage zu versetzen, die nächste Generation von KI-Anwendungen zu entwickeln und so ein florierendes Ökosystem zu schaffen.
Forschungsvorschau: Imagine with Claude
Als zeitlich begrenzte Studienvorschau ist dieAnthropic Eine experimentelle Funktion namens "Imagine with Claude" wurde eingeführt. Mit dieser Funktion können dieClaude Die Fähigkeit, Software "on-the-fly" zu generieren, bei der keine der Funktionen vorprogrammiert ist und es keinen vorformulierten Code gibt. Der Benutzer sieht die Claude Der Prozess der dynamischen Erstellung und Anpassung von Software auf der Grundlage von Interaktionen und Anfragen in Echtzeit.
Diese Demo zeigt anschaulich, welche Kreativität entfesselt werden kann, wenn Top-Modelle mit der richtigen Infrastruktur kombiniert werden. "Imagine with Claude" ist für Max-Abonnenten in den nächsten fünf Tagen verfügbar.
Wie man anfängt
Es wird offiziell empfohlen, dass alle Benutzer ein Upgrade auf Claude Sonnet 4.5. Ob Sie dies über eine App, eine API oder eine Claude Code ausnutzen ClaudeDie neuen Modelle sind ein "direkter Ersatz" mit deutlich verbesserter Leistung bei gleichem Preis.
- Ausführliche technische Einzelheiten und Prüfungsergebnisse finden Sie in der
Claude Sonnet 4.5SystembeschreibungskarteundModellseiteim Gesang antwortenoffizielles Dokument.
Bewertungsmethodik Beschreibung
- SWE-Bank GeprüftAlle
ClaudeDie Ergebnisse verwenden alle eine Datei, die diebashEin einfacher Rahmenbericht mit zwei Werkzeugen, dem Dateieditor und dem Dokumenteditor. Die gemeldete Punktzahl von 77,2% wurde über 10 Versuche mit dem vollen 500-Probleme-Datensatz gemittelt, ohne Tests, mit einem Gedankenbudget von 200K Token. - Terminal-BankAlle berichteten Ergebnisse verwenden das Standard-Smartbody-Framework (Terminus 2) mit einem XML-Parser, wobei mehrere Durchläufe zu verschiedenen Zeitpunkten durchgeführt wurden, um die Bewertung der Empfindlichkeit gegenüber der Inferenzinfrastruktur zu vereinfachen.
- AIME:
Sonnet 4.5Die Ergebnisse werden bei einer Abtasttemperatur von 1,0 angegeben. Das Modell verwendet in der Python-Konfiguration 64K Inferenz-Token. - OSWorld:: Alle gemeldeten Punktzahlen verwenden die offizielle
OSWorld-VerifiedRahmen mit einer maximalen Schrittzahl von 100, gemittelt über 4 Läufe. - MMMLUAlle angegebenen Ergebnisse sind Durchschnittswerte von 5 Durchläufen in 14 nicht-englischen Sprachen mit erweitertem Denken (bis zu 128K).
- Finanzagent:: Alle Punktzahlen werden bestimmt durch Vals AI Laufen Sie und veröffentlichen Sie auf ihren öffentlichen Bestenlisten.
- Die Punktzahlen für die anderen Modelle stammen aus
OpenAIim Gesang antwortenGooglevon offiziellen Veröffentlichungen oder öffentlichen Rankings.






































