ollama v0.13.2 最新更新详解:Qwen3-Next首发与性能优化

2025年12月4日,ollama v0.13.2版本迎来预发布,并于2025年12月9日正式发布。本次更新在模型能力、性能优化和问题修复方面都有重要提升。

1. 新增模型

  • Qwen3-Next
    Qwen3-Next是Qwen3-Next系列的首个版本,在参数效率和推理速度方面表现优秀。该系列的引入旨在为用户提供更高效的推理过程,同时保持较低的资源占用。

2. 性能优化

  • 启用Flash Attention(适用于视觉模型)
    对包括mistral-3、gemma3、qwen3-vl在内的视觉模型,Flash Attention功能现已默认开启。这一优化提升了在提供图片作为输入时的显存利用率和整体性能,让视觉模型在处理图像任务时更加高效稳定。

3. 问题修复

  • 多GPU CUDA机器的GPU检测修复
    修复了在多GPU CUDA环境下的GPU检测问题,保证了部署时对硬件资源的正确识别与调用。
  • deepseek-v3.1思考状态问题修复
    修复了deepseek-v3.1在Ollama应用中,即使关闭"思考"功能仍然持续进行思考的问题,使其在应用场景中更符合用户的预期设置。

版本概述

代码地址:github.com/ollama/ollama

v0.13.2是一次兼顾功能拓展、性能优化和稳定性提升的更新,特别是首发的Qwen3-Next模型,以及Flash Attention在视觉模型中的默认启用,将为开发者和用户带来更顺畅的使用体验。

相关推荐
殷紫川4 小时前
高并发系统性能优化全链路实战:端到端榨干系统性能,百万 QPS 零卡顿
性能优化·架构
marsh02069 小时前
16 openclaw与数据库集成:ORM使用与性能优化
数据库·spring·ai·性能优化·编程·技术
C+-C资深大佬1 天前
C++ 性能优化 专业详解
java·c++·性能优化
向往着的青绿色1 天前
完全平方数【Letcode279题解】
开发语言·c++·数学·算法·面试·性能优化·动态规划
TechMix1 天前
【性能优化】RenderThread各工作阶段梳理
android·性能优化
小陈工2 天前
FastAPI性能优化实战:从每秒100请求到1000的踩坑记录
python·性能优化·django·flask·numpy·pandas·fastapi
fundoit2 天前
WSL存储性能优化完全指南:从原理到实践
性能优化
山峰哥2 天前
查询优化案例:从慢查询到闪电般的查询速度
数据库·sql·性能优化·编辑器·深度优先
weixin199701080162 天前
唯品会商品详情页前端性能优化实战
前端·性能优化
qq_410194292 天前
.net性能优化的步骤,前端、后端、数据库
性能优化·.net