大语言模型微调框架Unsloth:简化模型微调流程,提升模型性能

Unsloth 将 Llama-3、Mistral、Phi-3 和 Gemma 等大型语言模型的微调速度提高了 2 倍,内存使用量减少了 70%,而且准确性不会降低!

特点

  • 通过手动派生所有计算繁重的数学步骤和手写 GPU 内核,unsloth 可以在不更改任何硬件的情况下神奇地使训练更快。
  • 与 Flash Attention 2 (FA2) 相比,在单个 GPU 上快 10 倍,在多个 GPU 系统上快 32 倍。
  • 我们支持从 Tesla T4 到 H100 的 NVIDIA GPU,并且可以移植到 AMD 和 Intel GPU。

支持模型

可以看到主流的开源模型基本都有支持,Llama、Qwen、Mistral、Gemma、Phi等等

版本

本身开源(Free),同样也支持企业级操作,费用见下图

Google Colab支持

Unsloth 开源版本可以安装在本地或像 Google Colab 这样的其他 GPU 服务中。大多数人通过 Google Colab 界面使用 Unsloth,它提供了一个免费的 GPU 来训练。

链接地址:https://docs.unsloth.ai/get-started/unsloth-notebooks

开源地址:https://github.com/unslothai/unsloth

可以点击里面的"start for free"直接开始你的微调工作。

相关推荐
sensen_kiss2 分钟前
INT305 Machine Learning 机器学习 Pt.9 Probabilistic Models(概率模型)
人工智能·机器学习·概率论
非著名架构师18 分钟前
智慧气象护航:构建陆海空立体交通气象安全保障体系
大数据·人工智能·安全·疾风气象大模型4.0·疾风气象大模型·风光功率预测
java_logo26 分钟前
LOBE-CHAT Docker 容器化部署指南
运维·docker·语言模型·容器·llama
tech-share31 分钟前
基于pytorch 自建AI大模型
人工智能·深度学习·机器学习·gpu算力
夏洛克信徒1 小时前
从 “工具” 到 “代理”:Gemini 3.0 重构 AI 能力边界,开启智能协作新纪元
大数据·人工智能·神经网络
AI浩1 小时前
回归基础:让去噪生成模型真正去噪
人工智能·数据挖掘·回归
ekprada1 小时前
DAY 16 数组的常见操作和形状
人工智能·python·机器学习
用户5191495848451 小时前
C#扩展成员全面解析:从方法到属性的演进
人工智能·aigc
柳鲲鹏1 小时前
OpenCV: 光流法python代码
人工智能·python·opencv
金融小师妹2 小时前
基于LSTM-GARCH模型:三轮黄金周期特征提取与多因子定价机制解构
人工智能·深度学习·1024程序员节