ollama v0.12.0 发布：引入云端大模型预览，支持本地与云端无缝融合

2025年9月18日，Ollama 发布了 v0.12.0 版本更新，本次更新带来了一个重量级的新特性------云端模型（Cloud Models）预览功能，使开发者不仅能在本地运行模型，还能直接调用云端算力运行超大模型，实现本地与云端的无缝协同。同时，本版本也对多种模型架构的支持、GPU 兼容性以及 API 行为做了重要优化。

一、核心更新亮点

1. 云端大模型（Cloud Models）预览

在 v0.12.0 中，Ollama 首次提供了云端推理能力，开发者可以运行体量更大的模型，而无需担心本地机器显存容量不足。云端模型通过 数据中心级别硬件 提供推理计算，同时保持了 Ollama 一贯的隐私与安全政策------不保留用户数据。

通过云端模式，你可以直接调用如 qwen3-coder:480b-cloud 、gpt-oss:120b-cloud 、deepseek-v3.1:671b-cloud 等超大模型，并与本地工具链无缝集成。

示例运行命令：

bash 复制代码

ollama run qwen3-coder:480b-cloud

当前可用的云端模型包括：

qwen3-coder:480b-cloud（阿里巴巴长上下文编码及智能体任务优化模型）
gpt-oss:120b-cloud（OpenAI 自研推理与智能体任务模型）
gpt-oss:20b-cloud
deepseek-v3.1:671b-cloud（混合推理模式模型，支持思维链与非思维链模式）

2. 新增模型架构支持

BERT 系列模型现已在 Ollama 引擎上运行，更适合各种文本分类、检索与 NLU 场景。
Qwen 3 系列模型也已集成至 Ollama 引擎，可在本地和云端流畅运行。

3. GPU 与性能优化

修复了 旧款 NVIDIA GPU 在新驱动环境下无法被检测的问题。
修复了多版本 CUDA 环境下的兼容性问题（Multi-CUDA version skew）。
优化了模型导入流程，避免了 ollama create 导入失败的 bug。
构建系统优化，防止并行构建导致内存或线程资源耗尽。

4. API 行为改进

针对 /api/generate 接口，如果提示中包含初始 <think> 标记，将不会进行重复解析，避免响应异常。
API 与 OpenAI 接口现已完全兼容，可直接用 OpenAI SDK 方式调用。
新增远程代理（Remote Proxy）支持，可更方便部署在跨网络环境。

二、使用方法

1. 安装或升级

下载最新 v0.12.0 版本后，即可使用云端功能。

2. 签到认证

云端推理需要在 Ollama 平台进行账号登录：

bash 复制代码

ollama signin

退出登录：

bash 复制代码

ollama signout

3. 运行云端模型

CLI 方式运行：

bash 复制代码

ollama run gpt-oss:120b-cloud

查看已拉取的模型列表：

bash 复制代码

ollama ls

输出示例：

makefile 复制代码

NAME                      ID            SIZE        MODIFIED
gpt-oss:120b-cloud        569662207105  -           5 seconds ago
deepseek-v3.1:671-cloud   d3749919e45f  -           2 days ago
qwen3-coder:480b-cloud    11483b8f8765  -           2 days ago

4. API 调用示例

JavaScript

javascript 复制代码

import ollama from "ollama";

const response = await ollama.chat({
  model: "gpt-oss:120b-cloud",
  messages: [{ role: "user", content: "天空为什么是蓝色的？" }],
});
console.log(response.message.content);

Python

python 复制代码

import ollama

response = ollama.chat(
  model='gpt-oss:120b-cloud',
  messages=[{'role': 'user','content': '天空为什么是蓝色的？'}]
)
print(response['message']['content'])

cURL

bash 复制代码

curl http://localhost:11434/api/chat -d '{
  "model": "gpt-oss:120b-cloud",
  "messages": [{
    "role": "user",
    "content": "天空为什么是蓝色的？"
  }],
  "stream": false
}'

三、总结

Ollama v0.12.0 的发布，标志着该平台从本地推理走向了云端与本地融合的新阶段。这不仅解决了本地硬件性能不足的问题，还统一了 API 调用方式，使得开发者能够像使用本地模型一样，轻松调用超大规模云端模型。