大语言模型微调框架Unsloth:简化模型微调流程,提升模型性能

Unsloth 将 Llama-3、Mistral、Phi-3 和 Gemma 等大型语言模型的微调速度提高了 2 倍,内存使用量减少了 70%,而且准确性不会降低!

特点

  • 通过手动派生所有计算繁重的数学步骤和手写 GPU 内核,unsloth 可以在不更改任何硬件的情况下神奇地使训练更快。
  • 与 Flash Attention 2 (FA2) 相比,在单个 GPU 上快 10 倍,在多个 GPU 系统上快 32 倍。
  • 我们支持从 Tesla T4 到 H100 的 NVIDIA GPU,并且可以移植到 AMD 和 Intel GPU。

支持模型

可以看到主流的开源模型基本都有支持,Llama、Qwen、Mistral、Gemma、Phi等等

版本

本身开源(Free),同样也支持企业级操作,费用见下图

Google Colab支持

Unsloth 开源版本可以安装在本地或像 Google Colab 这样的其他 GPU 服务中。大多数人通过 Google Colab 界面使用 Unsloth,它提供了一个免费的 GPU 来训练。

链接地址:https://docs.unsloth.ai/get-started/unsloth-notebooks

开源地址:https://github.com/unslothai/unsloth

可以点击里面的"start for free"直接开始你的微调工作。

相关推荐
2401_8414956414 小时前
【计算机视觉】基于数学形态学的保留边缘图像去噪
人工智能·python·算法·计算机视觉·图像去噪·数学形态学·边缘保留
三天哥15 小时前
Sora 2为什么会火?
人工智能·gpt·ai·aigc·agi·ai视频·sora
逻辑留白陈15 小时前
2025年实用大模型工具清单
人工智能·学习方法
许泽宇的技术分享15 小时前
AI驱动的视频生成革命:MoneyPrinterTurbo技术架构深度解析
人工智能·内容创作·ai视频生成
飞哥数智坊15 小时前
“成章”写作助手开源:中秋赏不成月,那就开源一个 AI 实战项目吧
人工智能·ai编程·trae
colus_SEU15 小时前
【循环神经网络6】LSTM实战——基于LSTM的IMDb电影评论情感分析
人工智能·rnn·深度学习·神经网络·lstm
zezexihaha16 小时前
AI + 制造:从技术试点到产业刚需的 2025 实践图鉴
人工智能·制造
文火冰糖的硅基工坊16 小时前
[人工智能-综述-21]:学习人工智能的路径
大数据·人工智能·学习·系统架构·制造
爱喝白开水a16 小时前
2025时序数据库选型,从架构基因到AI赋能来解析
开发语言·数据库·人工智能·架构·langchain·transformer·时序数据库
小关会打代码17 小时前
计算机视觉进阶教学之Mediapipe库(一)
人工智能·计算机视觉