Anthropic 公司发布了其最新旗舰模型 Claude Sonnet 4.5
,并直接宣称其为“全球最强的编码模型”。这不仅是一次常规的模型迭代,更是一次围绕 AI 智能体(Agent)构建、计算机操作以及复杂推理能力的全面跃进。
代码是数字世界的基石,它驱动着我们日常使用的每一款应用、电子表格和软件工具。理解并驾驭这些工具,以及在复杂问题中进行推理,是现代工作效率的核心。Claude Sonnet 4.5
的发布,正是为了将这种能力提升至新的高度。
伴随新模型一同发布的,还有一系列对 Claude
产品生态的重大升级:
- Claude Code 功能增强:新增了“检查点 (checkpoints)”功能,允许用户保存开发进度并随时回滚到之前的状态。同时,终端界面也进行了刷新,并推出了原生的
VS Code
扩展。 - API 能力扩展: in
Claude API
中引入了新的上下文编辑功能和记忆工具,让 AI 智能体能够处理运行时间更长、复杂度更高的任务。 - 应用内功能集成: in
Claude
应用中,用户现在可以直接在对话中执行代码和创建文件(如电子表格、幻灯片和文档)。 - 开发者工具开放:发布
Claude Agent SDK
willAnthropic
内部用于构建Claude Code
的基础设施开放给所有开发者。
Claude Sonnet 4.5
已于今日全面上线。开发者可以通过 Claude API
invocations claude-sonnet-4-5
来使用。值得注意的是,其定价与上一代 Claude Sonnet 4
保持一致,为每百万输入/输出 token 3/15 美元。
顶级的智能与性能表现
Claude Sonnet 4.5
exist SWE-bench Verified
评测中取得了当前最优成绩。这项评测基准通过抓取并验证 GitHub
上的真实软件工程问题,来衡量 AI 模型在现实世界中的编码和软件修复能力。在实际测试中,Claude Sonnet 4.5
能够在复杂的多步骤任务上保持超过30小时的专注。
在计算机操作能力方面,Claude Sonnet 4.5
同样实现了巨大飞跃。在 OSWorld
基准测试中,它的得分达到了 61.4%,大幅领先。OSWorld
旨在评估 AI 模型执行真实计算机任务的能力,例如文件管理、软件安装和系统配置。仅仅四个月前,Sonnet 4
在此项测试中的领先分数为 42.2%,新模型的提升幅度显而易见。
这项能力已经通过 Claude for Chrome
扩展得以应用。在下面的演示视频中,可以看到 Claude
如何直接在浏览器中工作,包括浏览网站、填充电子表格和完成指定任务。
除了编码和计算机使用,该模型在推理和数学等更广泛的评估中也表现出显著提升:
在金融、法律、医学和 STEM 等专业领域,专家们发现 Claude Sonnet 4.5
相比包括 Opus 4.1
在内的旧模型,在领域知识和推理能力上有了质的飞跃。
financial | legislation | study of medicine | STEM |
---|---|---|---|
![]() |
![]() |
![]() |
![]() |
迄今为止最“对齐”的前沿模型
除了性能强大,Claude Sonnet 4.5
also Anthropic
迄今为止最“对齐”的前沿模型。模型对齐(Alignment)旨在确保 AI 的行为符合人类的意图和价值观。通过改进的能力和广泛的安全训练,Anthropic
大幅改善了模型的行为,减少了奉承、欺骗、权力寻求和鼓励妄想等不良倾向。
针对模型的智能体和计算机使用能力,Anthropic
在防御“提示词注入攻击”方面也取得了重大进展。提示词注入是当前 AI 智能体面临的最严重风险之一,恶意用户可能通过巧妙构造的输入来劫持 AI 的原始指令,使其执行非预期或有害的操作。
Claude Sonnet 4.5
exist Anthropic
的 AI 安全等级 3 (ASL-3) 框架下发布,该框架确保模型的强大能力与相应的安全保障措施相匹配。这些措施包括旨在检测潜在危险输入和输出的分类器,特别是与化学、生物、放射性和核 (CBRN) 武器相关的内容。
尽管这些分类器有时可能会误报正常内容,但 Anthropic
已经将误报率相比最初降低了十倍,并为用户提供了在对话被中断时无缝切换到 Sonnet 4
模型的选项。
Claude Agent SDK:开放构建智能体的核心工具
Anthropic
花了超过六个月的时间来迭代 Claude Code
,积累了大量关于如何构建和设计 AI 智能体的经验。他们解决了许多棘手的问题:如何让智能体在长时间任务中有效管理记忆,如何设计兼顾自主性与用户控制的权限系统,以及如何协调多个子智能体以实现共同目标。
Now.Anthropic
将这些经验和工具打包成 Claude Agent SDK
开放给所有开发者。这套 SDK 不仅仅适用于编码任务,它为构建各类复杂智能体提供了坚实的基础。此举是一个明确的信号:Anthropic
不仅要提供强大的模型,更要赋能开发者构建下一代 AI 应用,从而建立一个繁荣的生态系统。
研究预览:Imagine with Claude
作为一项限时研究预览,Anthropic
推出了一个名为“Imagine with Claude”的实验性功能。在这个功能中,Claude
能够即时生成软件,所有功能都不是预设的,也没有预先编写的代码。用户看到的是 Claude
根据实时交互和请求,动态创建和调整软件的过程。
这个演示生动地展示了当顶级模型与正确的基础设施相结合时,能够释放出怎样的创造力。“Imagine with Claude”将在未来五天内对 Max 订阅用户开放。
How to get started
官方建议所有用户升级至 Claude Sonnet 4.5
。无论你是通过应用、API 还是 Claude Code
utilization Claude
,新模型都是一个性能大幅提升但价格不变的“直接替换”选项。
- 关于完整的技术细节和评测结果,请参阅
Claude Sonnet 4.5
系统说明卡,model pagecap (a poem)official documentThe
评测方法论说明
- SWE-bench Verified: 所有
Claude
结果均使用一个包含bash
和文件编辑两个工具的简单框架报告。报告的 77.2% 分数是在完整的 500 个问题数据集上,经过 10 次试验平均得出,没有测试时计算,思考预算为 200K token。 - Terminal-Bench: 所有报告的分数均使用默认的智能体框架 (Terminus 2),并使用 XML 解析器,在不同日期进行多次运行以平滑评估对推理基础设施的敏感性。
- AIME:
Sonnet 4.5
的分数是在温度 1.0 的采样下报告的。该模型在 Python 配置中使用了 64K 推理 token。 - OSWorld: 所有报告的分数均使用官方的
OSWorld-Verified
框架,最大步数为 100,经过 4 次运行平均得出。 - MMMLU: 所有报告的分数均为 14 种非英语语言上 5 次运行的平均值,并使用了扩展思考(最高 128K)。
- Finance Agent: 所有分数由 Vals AI 在其公共排行榜上运行并发布。
- 其他模型的得分参考自
OpenAI
cap (a poem)Google
的官方发布或公开排行榜。