海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI新闻

Ollama Cloud 发布:在本地终端运行云端千亿参数模型

2025-09-25 49

Image

对于任何希望在本地运行开源大语言模型的开发者来说,Ollama 已经成为一个不可或缺的工具。它极大地简化了模型的下载、部署和管理流程。然而,随着模型参数规模的爆炸式增长,即使是专业的个人电脑也难以承受动辄数百GB的显存和内存需求,这使得许多尖端模型对于大多数开发者而言遥不可及。

为了解决这一核心痛点,Ollama 近日正式推出了云模型(Cloud Models)预览版。这项新服务旨在通过一个巧妙的方案,让开发者能够在数据中心级的硬件上运行那些巨型模型,而交互体验却与在本地运行别无二致。

核心特性:突破硬件限制,保持本地体验

Ollama Cloud 的设计理念并非简单地提供一个云端 API 接口,而是将云端算力无缝集成到开发者熟悉的本地工作流中。

  1. 突破硬件限制:用户现在可以直接从本地终端运行像 deepseek-v3.1:671b(6710亿参数)或 qwen3-coder:480b(4800亿参数)这类巨型模型。前者是一个强大的混合思维模型,而后者则是由阿里巴巴开发、专精于代码生成和代理任务的模型。这些模型所需的计算资源远超个人设备范畴,而 Ollama Cloud 则将这一障碍彻底清除。
  2. 无缝的本地化体验:这是 Ollama Cloud 最具吸引力的一点。用户无需改变现有的工具链,所有操作依然通过本地的 Ollama 客户端完成。无论是使用 ollama run 进行交互式对话,还是通过 ollama ls 查看模型列表,其体验和管理本地模型完全一致。云端模型在本地仅表现为一个轻量级的引用或“快捷方式”,不占用任何磁盘空间。
  3. 隐私与安全优先:在 AI 应用中,数据隐私是关键考量。Ollama 官方明确承诺,云端服务器不会保留用户的任何查询数据,确保对话和代码片段的私密性。
  4. 兼容 OpenAI APIOllama 的本地服务因其对 OpenAI API 格式的兼容性而广受欢迎。Ollama Cloud 继承了这一特性,意味着所有现存的支持 OpenAI API 的应用程序和工作流,都可以 без缝隙地切换到使用这些云端大模型。

当前可用的云模型

目前,Ollama Cloud 预览版提供了以下几款超大参数模型,模型名称均带有 -cloud 后缀以作区分:

  • qwen3-coder:480b-cloud: 阿里巴巴旗下专注于代码生成和代理任务的旗舰模型。
  • deepseek-v3.1:671b-cloud: 一款支持混合思维模式的超大规模通用模型,在推理和编码方面表现出色。
  • gpt-oss:120b-cloud
  • gpt-oss:20b-cloud

快速上手指南

体验 Ollama Cloud 的过程非常简单,只需几个步骤即可完成。

第一步:更新 Ollama

确保本地安装的 Ollama 版本升级至 v0.12 或更高。可以通过官方网站下载最新版本或使用系统包管理器更新。

第二步:登录 Ollama 账户

由于云模型需要调用 ollama.com 的计算资源,用户必须登录自己的 Ollama 账户以完成身份验证。在终端中执行以下命令:

ollama signin

该命令会引导用户在浏览器中完成登录授权。

第三步:运行云模型

登录成功后,便可以像运行本地模型一样直接运行云模型。例如,要启动 4800 亿参数的 Qwen3-Coder 模型,只需执行:

ollama run qwen3-coder:480b-cloud

Ollama 客户端会自动处理所有到云端的请求路由,用户只需等待模型响应即可。

第四步:管理云模型

使用 ollama ls 命令可以查看已拉取到本地的模型列表。你会发现,云模型的 SIZE 一栏显示为 -,这直观地表明了它只是一个不占用本地存储空间的引用。

% ollama ls
NAME                      ID            SIZE      MODIFIED
gpt-oss:120b-cloud        569662207105  -         5 seconds ago
qwen3-coder:480b-cloud    11483b8f8765  -         2 days ago

API 集成与调用

对于开发者而言,API 调用是集成的核心。Ollama Cloud 支持两种主要的 API 调用方式:通过本地代理和直接访问云端端点。

方式一:通过本地 Ollama 服务代理

这是最简单也是最推荐的方式,它能与现有工作流完美兼容。

首先,使用 pull 命令将模型引用拉取到本地:

ollama pull gpt-oss:120b-cloud

然后,像调用任何本地模型一样,向本地 Ollama 服务 (http://localhost:11434) 发送请求。

Python 示例

import ollama
response = ollama.chat(
model='gpt-oss:120b-cloud', 
messages=[{
'role': 'user',
'content': 'Why is the sky blue?',
},
])
print(response['message']['content'])

JavaScript (Node.js) 示例

import ollama from "ollama";
const response = await ollama.chat({
model: "gpt-oss:120b-cloud",
messages: [{ role: "user", content: "Why is the sky blue?" }],
});
console.log(response.message.content);

cURL 示例

curl http://localhost:11434/api/chat -d '{
"model": "gpt-oss:120b-cloud",
"messages": [{
"role": "user",
"content": "Why is the sky blue?"
}],
"stream": false
}'

方式二:直接访问云端 API

在某些场景下,如在服务器或云函数中,直接调用云端 API 会更加方便。

  • API 端点https://ollama.com/v1/chat/completions
  • API Key 申请: 直接访问该端点需要专用的 API Key。用户可以在 Ollama 官网登录后,前往 Keys 页面生成自己的密钥。

Image

直接调用云端 API 遵循标准的 OpenAI 格式,只需在请求头中携带相应的 Authorization 凭证即可。

与第三方工具的整合

Ollama Cloud 的设计优势在于其对生态的无缝兼容。所有支持通过 Ollama 本地 API 端点进行连接的第三方客户端,如 Open WebUILobeChat 或 Cherry Studio,都无需任何修改即可直接使用云模型。

以 Cherry Studio 的配置为例:

  1. 确保 API 端点指向本地 Ollama 实例:http://localhost:11434
  2. 在模型名称列表中,直接填入你已拉取过的云模型名称,例如 gpt-oss:120b-cloud
  3. API Key 字段通常留空,因为认证已经通过 ollama signin 在本地客户端完成。

Image

配置完成后,你在这些工具中对云模型的调用将被本地 Ollama 客户端自动代理到云端进行处理,整个过程对上层应用完全透明。

战略意义与展望

Ollama Cloud 的推出,标志着开源 AI 模型在可用性上迈出了重要一步。它不仅为个人开发者和爱好者打开了通往顶级大模型的大门,更重要的是,它通过保持本地化的交互体验,降低了开发者的学习和迁移成本。

目前该服务处于预览阶段,官方提到设有临时的速率限制以保证服务稳定,并计划在未来推出基于用量的计费模式。 这一举措将 Ollama 定位为连接本地开发环境与云端强大算力的桥梁,使其在与 GroqReplicate 等纯云端推理服务的竞争中,拥有了独特的开发者体验优势。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文