ollama v0.13.4 发布——全新模型与性能优化详解

2025年12月13日，ollama v0.13.4版本预发布，随后于2025年12月16日正式发布。本次更新是一次重要的版本迭代，包含新模型的推出、引擎默认设置的调整、Flash Attention机制的自动化启用，以及一系列对Gemma 3架构模型的修复与增强。以下是详细更新内容。

1. Nemotron 3 Nano

这是一款全新的开放高效智能代理模型，定义了高性能标准，面向智能代理应用场景。

2. Olmo 3 与 Olmo 3.1

这一系列开放语言模型旨在推动语言模型研究科学化。

其预训练基于 Dolma 3 数据集 ，后训练使用 Dolci 数据集，代表了更系统化的语言模型训练流程。

envconfig/config.go 调整了 OLLAMA_NEW_ENGINE 的默认值逻辑，引入 BoolWithDefault 方法，使引擎启用逻辑更灵活。
增强了环境变量映射支持，结构更加全面。

1. Flash Attention 类型系统引入
ml/device.go 新增 FlashAttentionType 枚举类型：

此设计使 Flash Attention 模式控制更细化，支持自动适配硬件。

2. GGML 图计算增强

在 fs/ggml/ggml.go 中，Flash Attention 引入枚举类型接口，支持多种量化缓存类型检测与验证方法，提升兼容性。

3. Llama 引擎增强
llama/llama.go 重构了 Flash Attention 参数逻辑------支持自动、启用与禁用三种模式，适配不同模型及硬件环境。

4. LLM 服务逻辑优化
llm/server.go 增加了 Flash Attention 用户显式设置检测逻辑，并完善了 KV 缓存量化兼容性处理。当使用量化 KV 缓存类型时必须启用 Flash Attention。

KV 缓存校验机制进一步完善，增加更详细的警告提示与逻辑分支。

5. ML 后端结构改进
ml/backend.go 与 ml/backend/ggml/ggml.go 中统一 Flash Attention 类型接口，并在注意力计算中使用新的枚举系统，实现高效的多设备内存调度与算子融合优化。

model/models/gemma3/model_text.go

对 Gemma 3 的旋转位置嵌入 (RoPE) 算法进行了调整：

openai/responses.go

调整了工具调用消息的合并逻辑：

同时新增全面的单元测试 openai/responses_test.go，覆盖函数调用与工具输出场景，验证新逻辑稳定性。

ollama v0.13.4 是一次大幅度增强版发布，重点在于：