当前位置：首页 » AI新闻

Ollama Cloud 发布：在本地终端运行云端千亿参数模型

2025-09-25

3.1 K

对于任何希望在本地运行开源大语言模型的开发者来说，Ollama 已经成为一个不可或缺的工具。它极大地简化了模型的下载、部署和管理流程。然而，随着模型参数规模的爆炸式增长，即使是专业的个人电脑也难以承受动辄数百GB的显存和内存需求，这使得许多尖端模型对于大多数开发者而言遥不可及。

为了解决这一核心痛点，Ollama 近日正式推出了云模型（Cloud Models）预览版。这项新服务旨在通过一个巧妙的方案，让开发者能够在数据中心级的硬件上运行那些巨型模型，而交互体验却与在本地运行别无二致。

核心特性：突破硬件限制，保持本地体验

Ollama Cloud 的设计理念并非简单地提供一个云端 API 接口，而是将云端算力无缝集成到开发者熟悉的本地工作流中。

突破硬件限制：用户现在可以直接从本地终端运行像 deepseek-v3.1:671b（6710亿参数）或 qwen3-coder:480b（4800亿参数）这类巨型模型。前者是一个强大的混合思维模型，而后者则是由阿里巴巴开发、专精于代码生成和代理任务的模型。这些模型所需的计算资源远超个人设备范畴，而 Ollama Cloud 则将这一障碍彻底清除。
无缝的本地化体验：这是 Ollama Cloud 最具吸引力的一点。用户无需改变现有的工具链，所有操作依然通过本地的 Ollama 客户端完成。无论是使用 ollama run 进行交互式对话，还是通过 ollama ls 查看模型列表，其体验和管理本地模型完全一致。云端模型在本地仅表现为一个轻量级的引用或“快捷方式”，不占用任何磁盘空间。
隐私与安全优先：在 AI 应用中，数据隐私是关键考量。Ollama 官方明确承诺，云端服务器不会保留用户的任何查询数据，确保对话和代码片段的私密性。
兼容 OpenAI API：Ollama 的本地服务因其对 OpenAI API 格式的兼容性而广受欢迎。Ollama Cloud 继承了这一特性，意味着所有现存的支持 OpenAI API 的应用程序和工作流，都可以 без缝隙地切换到使用这些云端大模型。

当前可用的云模型

目前，Ollama Cloud 预览版提供了以下几款超大参数模型，模型名称均带有 -cloud 后缀以作区分：

qwen3-coder:480b-cloud: 阿里巴巴旗下专注于代码生成和代理任务的旗舰模型。
deepseek-v3.1:671b-cloud: 一款支持混合思维模式的超大规模通用模型，在推理和编码方面表现出色。
gpt-oss:120b-cloud
gpt-oss:20b-cloud

快速上手指南

体验 Ollama Cloud 的过程非常简单，只需几个步骤即可完成。

第一步：更新 Ollama

确保本地安装的 Ollama 版本升级至 v0.12 或更高。可以通过官方网站下载最新版本或使用系统包管理器更新。

第二步：登录 Ollama 账户

由于云模型需要调用 ollama.com 的计算资源，用户必须登录自己的 Ollama 账户以完成身份验证。在终端中执行以下命令：

ollama signin

该命令会引导用户在浏览器中完成登录授权。

第三步：运行云模型

登录成功后，便可以像运行本地模型一样直接运行云模型。例如，要启动 4800 亿参数的 Qwen3-Coder 模型，只需执行：

ollama run qwen3-coder:480b-cloud

Ollama 客户端会自动处理所有到云端的请求路由，用户只需等待模型响应即可。

第四步：管理云模型

使用 ollama ls 命令可以查看已拉取到本地的模型列表。你会发现，云模型的 SIZE 一栏显示为 -，这直观地表明了它只是一个不占用本地存储空间的引用。

% ollama ls
NAME                      ID            SIZE      MODIFIED
gpt-oss:120b-cloud        569662207105  -         5 seconds ago
qwen3-coder:480b-cloud    11483b8f8765  -         2 days ago

API 集成与调用

对于开发者而言，API 调用是集成的核心。Ollama Cloud 支持两种主要的 API 调用方式：通过本地代理和直接访问云端端点。

方式一：通过本地 Ollama 服务代理

这是最简单也是最推荐的方式，它能与现有工作流完美兼容。

首先，使用 pull 命令将模型引用拉取到本地：

ollama pull gpt-oss:120b-cloud

然后，像调用任何本地模型一样，向本地 Ollama 服务 (http://localhost:11434) 发送请求。

Python 示例

import ollama
response = ollama.chat(
model='gpt-oss:120b-cloud', 
messages=[{
'role': 'user',
'content': 'Why is the sky blue?',
},
])
print(response['message']['content'])

JavaScript (Node.js) 示例

import ollama from "ollama";
const response = await ollama.chat({
model: "gpt-oss:120b-cloud",
messages: [{ role: "user", content: "Why is the sky blue?" }],
});
console.log(response.message.content);

cURL 示例

curl http://localhost:11434/api/chat -d '{
"model": "gpt-oss:120b-cloud",
"messages": [{
"role": "user",
"content": "Why is the sky blue?"
}],
"stream": false
}'

方式二：直接访问云端 API

在某些场景下，如在服务器或云函数中，直接调用云端 API 会更加方便。

API 端点: https://ollama.com/v1/chat/completions
API Key 申请: 直接访问该端点需要专用的 API Key。用户可以在 Ollama 官网登录后，前往 Keys 页面生成自己的密钥。

直接调用云端 API 遵循标准的 OpenAI 格式，只需在请求头中携带相应的 Authorization 凭证即可。

与第三方工具的整合

Ollama Cloud 的设计优势在于其对生态的无缝兼容。所有支持通过 Ollama 本地 API 端点进行连接的第三方客户端，如 Open WebUI、LobeChat 或 Cherry Studio，都无需任何修改即可直接使用云模型。

以 Cherry Studio 的配置为例：

确保 API 端点指向本地 Ollama 实例：http://localhost:11434。
在模型名称列表中，直接填入你已拉取过的云模型名称，例如 gpt-oss:120b-cloud。
API Key 字段通常留空，因为认证已经通过 ollama signin 在本地客户端完成。

配置完成后，你在这些工具中对云模型的调用将被本地 Ollama 客户端自动代理到云端进行处理，整个过程对上层应用完全透明。

战略意义与展望

Ollama Cloud 的推出，标志着开源 AI 模型在可用性上迈出了重要一步。它不仅为个人开发者和爱好者打开了通往顶级大模型的大门，更重要的是，它通过保持本地化的交互体验，降低了开发者的学习和迁移成本。

目前该服务处于预览阶段，官方提到设有临时的速率限制以保证服务稳定，并计划在未来推出基于用量的计费模式。这一举措将 Ollama 定位为连接本地开发环境与云端强大算力的桥梁，使其在与 Groq、Replicate 等纯云端推理服务的竞争中，拥有了独特的开发者体验优势。

未经允许不得转载：AI生产力工具 » Ollama Cloud 发布：在本地终端运行云端千亿参数模型

Ollama Cloud 发布：在本地终端运行云端千亿参数模型

核心特性：突破硬件限制，保持本地体验

当前可用的云模型

快速上手指南

API 集成与调用

方式一：通过本地 Ollama 服务代理

方式二：直接访问云端 API

与第三方工具的整合

战略意义与展望

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

Ollama Cloud 发布：在本地终端运行云端千亿参数模型

核心特性：突破硬件限制，保持本地体验

当前可用的云模型

快速上手指南

API 集成与调用

方式一：通过本地 Ollama 服务代理

方式二：直接访问云端 API

与第三方工具的整合

战略意义与展望

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具