Google 近日宣布,其最新的 AI 功能 Deep Think
已正式向 Google AI Ultra
订阅用户开放。此举标志着 Google 正在探索一种与当前主流追求速度的 AI 模型不同的发展路径——“深度思考”。同时,一个更强大的 Gemini 2.5 Deep Think
完整版本也已提供给部分数学家进行学术研究。
此次向公众推出的 Deep Think
版本,是基于早期测试者反馈和研究突破的改良版。它与那个在今年国际数学奥林匹克(IMO)竞赛中取得金牌标准的模型有所不同。竞赛模型需要数小时来解决复杂的数学问题,而公众版在保证日常可用性的前提下,将推理速度大幅提升,其性能在内部评估的 2025 年 IMO 基准上仍能达到铜牌水平。
什么是“慢思考”?
当前 AI 领域普遍追求更快的响应速度,而 Deep Think
的核心机制却反其道而行之,它引入了“延长思考时间”的概念。
Deep Think
采用了并行思考技术。当面对一个复杂问题时,模型会同时生成多种想法和解题路径,并对这些路径进行评估、修订甚至组合,最终选择一个最优答案。这个过程模仿了人类解决难题时的思考模式:花时间探索不同角度,权衡各种潜在方案,最终形成一个周密的结论。
为了让模型能够有效利用延长的推理时间,Google 还开发了新的强化学习技术,激励模型探索更复杂的推理路径。这使得 Deep Think
能够随着时间的推移,成为一个更擅长解决问题的工具。
Google 已将 Deep Think
提供给数学家 Michel van Garrel
等专业人士,用于测试数学猜想。
Deep Think 的优势体现在何处?
延长思考时间让 Deep Think
在处理需要创造力、战略规划和逐步改进的任务时表现出色。
- 迭代开发与设计: 在需要逐步构建复杂事物的任务中,
Deep Think
表现出强大的能力。例如,在 Web 开发任务中,它能够同时优化代码的功能性和页面的美学设计。下图展示了从Gemini 2.5 Flash
到Pro
再到Deep Think
在生成体素艺术作品时的细节差异,复杂性和创造力逐步提升。 - 科学与数学探索:
Deep Think
能够推理高度复杂的问题,有潜力成为研究人员的有力工具。它可以帮助构建和探索数学猜想,或深入分析复杂的科学文献。 - 算法与编程: 该模型尤其擅长解决高难度的编程问题。在这些问题中,如何清晰地定义问题、权衡不同方案的利弊以及考虑时间复杂度至关重要。
其性能也反映在多个极具挑战性的行业基准测试中。在不使用外部工具的情况下,Gemini 2.5 Deep Think
在 LiveCodeBench V6
(衡量竞赛编程能力)和 Humanity’s Last Exam
(衡量科学与数学等领域专业知识)等基准测试中取得了当前最先进的性能。
安全与取舍
随着模型能力的增强,安全问题也变得更为重要。Google 在 Deep Think
的整个训练和部署周期中都内置了安全措施。测试表明,与 Gemini 2.5 Pro
相比,Deep Think
在内容安全性和语气客观性方面有所改善,但也表现出更高的“拒绝无害请求”的倾向。这反映了当前前沿模型在提升安全能力时所面临的一种权衡。
更详细的安全评估结果已发布在 Deep Think
的模型卡中。
如何使用 Deep Think
Google AI Ultra
订阅用户现在可以在 Gemini
应用中使用 Deep Think
,每日有固定的使用次数限制。用户可以在模型下拉菜单中选择 2.5 Pro
,然后打开“Deep Think”开关来激活它。该功能可以自动调用代码执行和 Google 搜索等工具,并能生成更长的响应内容。
Google 还计划在未来几周内,通过 Gemini API
向部分开发者和企业测试者提供带工具和不带工具的 Deep Think
版本,以评估其在不同场景下的可用性。