大语言模型微调框架Unsloth:简化模型微调流程,提升模型性能

Unsloth 将 Llama-3、Mistral、Phi-3 和 Gemma 等大型语言模型的微调速度提高了 2 倍,内存使用量减少了 70%,而且准确性不会降低!

特点

  • 通过手动派生所有计算繁重的数学步骤和手写 GPU 内核,unsloth 可以在不更改任何硬件的情况下神奇地使训练更快。
  • 与 Flash Attention 2 (FA2) 相比,在单个 GPU 上快 10 倍,在多个 GPU 系统上快 32 倍。
  • 我们支持从 Tesla T4 到 H100 的 NVIDIA GPU,并且可以移植到 AMD 和 Intel GPU。

支持模型

可以看到主流的开源模型基本都有支持,Llama、Qwen、Mistral、Gemma、Phi等等

版本

本身开源(Free),同样也支持企业级操作,费用见下图

Google Colab支持

Unsloth 开源版本可以安装在本地或像 Google Colab 这样的其他 GPU 服务中。大多数人通过 Google Colab 界面使用 Unsloth,它提供了一个免费的 GPU 来训练。

链接地址:https://docs.unsloth.ai/get-started/unsloth-notebooks

开源地址:https://github.com/unslothai/unsloth

可以点击里面的"start for free"直接开始你的微调工作。

相关推荐
Luis Li 的猫猫1 小时前
深度学习中的知识蒸馏
人工智能·经验分享·深度学习·学习·算法
木觞清3 小时前
PyTorch与TensorFlow的对比:哪个框架更适合你的项目?
人工智能·pytorch·tensorflow
wyg_0311136 小时前
用deepseek学大模型04-模型可视化与数据可视化
人工智能·机器学习·信息可视化
陈敬雷-充电了么-CEO兼CTO7 小时前
DeepSeek核心算法解析:如何打造比肩ChatGPT的国产大模型
人工智能·神经网络·自然语言处理·chatgpt·大模型·aigc·deepseek
南风过闲庭8 小时前
人工智能泡沫效应
大数据·人工智能·科技·搜索引擎·百度·ai
我是一个对称矩阵9 小时前
YOLOv5-Seg 深度解析:与 YOLOv5 检测模型的区别
人工智能·yolo·目标跟踪
AomanHao9 小时前
图像质量评价指标-UCIQE-UIQM
图像处理·人工智能·计算机视觉·评价指标
MYT_flyflyfly9 小时前
计算机视觉-尺度不变区域
人工智能·计算机视觉
何小Ai同学9 小时前
Deepseek赚钱密码:小场景闭环如何让你快速盈利?
人工智能·架构·deepseek
AI服务老曹9 小时前
通过感知、分析、预测、控制,最大限度发挥效率的智慧油站开源了
人工智能·开源·自动化·音视频