Overseas access: www.kdjingpai.com
Bookmark Us

Anthropic 公司发布了其最新旗舰模型 Claude Sonnet 4.5,并直接宣称其为“全球最强的编码模型”。这不仅是一次常规的模型迭代,更是一次围绕 AI 智能体(Agent)构建、计算机操作以及复杂推理能力的全面跃进。

代码是数字世界的基石,它驱动着我们日常使用的每一款应用、电子表格和软件工具。理解并驾驭这些工具,以及在复杂问题中进行推理,是现代工作效率的核心。Claude Sonnet 4.5 的发布,正是为了将这种能力提升至新的高度。

伴随新模型一同发布的,还有一系列对 Claude 产品生态的重大升级:

  • Claude Code 功能增强:新增了“检查点 (checkpoints)”功能,允许用户保存开发进度并随时回滚到之前的状态。同时,终端界面也进行了刷新,并推出了原生的 VS Code 扩展。
  • API 能力扩展: in Claude API 中引入了新的上下文编辑功能和记忆工具,让 AI 智能体能够处理运行时间更长、复杂度更高的任务。
  • 应用内功能集成: in Claude 应用中,用户现在可以直接在对话中执行代码和创建文件(如电子表格、幻灯片和文档)。
  • 开发者工具开放:发布 Claude Agent SDKwill Anthropic 内部用于构建 Claude Code 的基础设施开放给所有开发者。

Claude Sonnet 4.5 已于今日全面上线。开发者可以通过 Claude API invocations claude-sonnet-4-5 来使用。值得注意的是,其定价与上一代 Claude Sonnet 4 保持一致,为每百万输入/输出 token 3/15 美元。

顶级的智能与性能表现

Claude Sonnet 4.5 exist SWE-bench Verified 评测中取得了当前最优成绩。这项评测基准通过抓取并验证 GitHub 上的真实软件工程问题,来衡量 AI 模型在现实世界中的编码和软件修复能力。在实际测试中,Claude Sonnet 4.5 能够在复杂的多步骤任务上保持超过30小时的专注。

Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-1

在计算机操作能力方面,Claude Sonnet 4.5 同样实现了巨大飞跃。在 OSWorld 基准测试中,它的得分达到了 61.4%,大幅领先。OSWorld 旨在评估 AI 模型执行真实计算机任务的能力,例如文件管理、软件安装和系统配置。仅仅四个月前,Sonnet 4 在此项测试中的领先分数为 42.2%,新模型的提升幅度显而易见。

这项能力已经通过 Claude for Chrome 扩展得以应用。在下面的演示视频中,可以看到 Claude 如何直接在浏览器中工作,包括浏览网站、填充电子表格和完成指定任务。

除了编码和计算机使用,该模型在推理和数学等更广泛的评估中也表现出显著提升:

Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-2

在金融、法律、医学和 STEM 等专业领域,专家们发现 Claude Sonnet 4.5 相比包括 Opus 4.1 在内的旧模型,在领域知识和推理能力上有了质的飞跃。

financial legislation study of medicine STEM
Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-3 Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-4 Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-5 Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-6

迄今为止最“对齐”的前沿模型

除了性能强大,Claude Sonnet 4.5 also Anthropic 迄今为止最“对齐”的前沿模型。模型对齐(Alignment)旨在确保 AI 的行为符合人类的意图和价值观。通过改进的能力和广泛的安全训练,Anthropic 大幅改善了模型的行为,减少了奉承、欺骗、权力寻求和鼓励妄想等不良倾向。

针对模型的智能体和计算机使用能力,Anthropic 在防御“提示词注入攻击”方面也取得了重大进展。提示词注入是当前 AI 智能体面临的最严重风险之一,恶意用户可能通过巧妙构造的输入来劫持 AI 的原始指令,使其执行非预期或有害的操作。

Anthropic 发布 Claude Sonnet 4.5:重塑编码与 AI 智能体开发的“规则”-7

Claude Sonnet 4.5 exist Anthropic 的 AI 安全等级 3 (ASL-3) 框架下发布,该框架确保模型的强大能力与相应的安全保障措施相匹配。这些措施包括旨在检测潜在危险输入和输出的分类器,特别是与化学、生物、放射性和核 (CBRN) 武器相关的内容。

尽管这些分类器有时可能会误报正常内容,但 Anthropic 已经将误报率相比最初降低了十倍,并为用户提供了在对话被中断时无缝切换到 Sonnet 4 模型的选项。

Claude Agent SDK:开放构建智能体的核心工具

Anthropic 花了超过六个月的时间来迭代 Claude Code,积累了大量关于如何构建和设计 AI 智能体的经验。他们解决了许多棘手的问题:如何让智能体在长时间任务中有效管理记忆,如何设计兼顾自主性与用户控制的权限系统,以及如何协调多个子智能体以实现共同目标。

Now.Anthropic 将这些经验和工具打包成 Claude Agent SDK 开放给所有开发者。这套 SDK 不仅仅适用于编码任务,它为构建各类复杂智能体提供了坚实的基础。此举是一个明确的信号:Anthropic 不仅要提供强大的模型,更要赋能开发者构建下一代 AI 应用,从而建立一个繁荣的生态系统。

研究预览:Imagine with Claude

作为一项限时研究预览,Anthropic 推出了一个名为“Imagine with Claude”的实验性功能。在这个功能中,Claude 能够即时生成软件,所有功能都不是预设的,也没有预先编写的代码。用户看到的是 Claude 根据实时交互和请求,动态创建和调整软件的过程。

这个演示生动地展示了当顶级模型与正确的基础设施相结合时,能够释放出怎样的创造力。“Imagine with Claude”将在未来五天内对 Max 订阅用户开放。

How to get started

官方建议所有用户升级至 Claude Sonnet 4.5。无论你是通过应用、API 还是 Claude Code utilization Claude,新模型都是一个性能大幅提升但价格不变的“直接替换”选项。

评测方法论说明

  • SWE-bench Verified: 所有 Claude 结果均使用一个包含 bash 和文件编辑两个工具的简单框架报告。报告的 77.2% 分数是在完整的 500 个问题数据集上,经过 10 次试验平均得出,没有测试时计算,思考预算为 200K token。
  • Terminal-Bench: 所有报告的分数均使用默认的智能体框架 (Terminus 2),并使用 XML 解析器,在不同日期进行多次运行以平滑评估对推理基础设施的敏感性。
  • AIMESonnet 4.5 的分数是在温度 1.0 的采样下报告的。该模型在 Python 配置中使用了 64K 推理 token。
  • OSWorld: 所有报告的分数均使用官方的 OSWorld-Verified 框架,最大步数为 100,经过 4 次运行平均得出。
  • MMMLU: 所有报告的分数均为 14 种非英语语言上 5 次运行的平均值,并使用了扩展思考(最高 128K)。
  • Finance Agent: 所有分数由 Vals AI 在其公共排行榜上运行并发布。
  • 其他模型的得分参考自 OpenAI cap (a poem) Google 的官方发布或公开排行榜。
0Bookmarked
0kudos

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish