大语言模型微调框架Unsloth:简化模型微调流程,提升模型性能

Unsloth 将 Llama-3、Mistral、Phi-3 和 Gemma 等大型语言模型的微调速度提高了 2 倍,内存使用量减少了 70%,而且准确性不会降低!

特点

  • 通过手动派生所有计算繁重的数学步骤和手写 GPU 内核,unsloth 可以在不更改任何硬件的情况下神奇地使训练更快。
  • 与 Flash Attention 2 (FA2) 相比,在单个 GPU 上快 10 倍,在多个 GPU 系统上快 32 倍。
  • 我们支持从 Tesla T4 到 H100 的 NVIDIA GPU,并且可以移植到 AMD 和 Intel GPU。

支持模型

可以看到主流的开源模型基本都有支持,Llama、Qwen、Mistral、Gemma、Phi等等

版本

本身开源(Free),同样也支持企业级操作,费用见下图

Google Colab支持

Unsloth 开源版本可以安装在本地或像 Google Colab 这样的其他 GPU 服务中。大多数人通过 Google Colab 界面使用 Unsloth,它提供了一个免费的 GPU 来训练。

链接地址:https://docs.unsloth.ai/get-started/unsloth-notebooks

开源地址:https://github.com/unslothai/unsloth

可以点击里面的"start for free"直接开始你的微调工作。

相关推荐
光与电子KOYUELEC加油奋斗38 分钟前
Molex莫仕连接器:增强高级驾驶辅助系统,打造更安全的汽车
人工智能·光与电子
__lost3 小时前
MATLAB画出3d的常见复杂有机分子和矿物的分子结构
开发语言·人工智能·matlab·化学·分子结构
每天都要写算法(努力版)3 小时前
【神经网络与深度学习】五折交叉验证(5-Fold Cross-Validation)
人工智能·深度学习·神经网络
郭不耐3 小时前
DeepSeek智能时空数据分析(六):大模型NL2SQL绘制城市之间连线
人工智能·数据分析·时序数据库·数据可视化·deepseek
winfredzhang4 小时前
Deepseek 生成新玩法:从文本到可下载 Word 文档?思路与实践
人工智能·word·deepseek
KY_chenzhao5 小时前
ChatGPT与DeepSeek在科研论文撰写中的整体科研流程与案例解析
人工智能·机器学习·chatgpt·论文·科研·deepseek
不爱吃于先生5 小时前
生成对抗网络(Generative Adversarial Nets,GAN)
人工智能·神经网络·生成对抗网络
cxr8285 小时前
基于Playwright的浏览器自动化MCP服务
人工智能·自动化·大语言模型·mcp
PPIO派欧云5 小时前
PPIO X OWL:一键开启任务自动化的高效革命
运维·人工智能·自动化·github·api·教程·ppio派欧云
奋斗者1号5 小时前
数值数据标准化:机器学习中的关键预处理技术
人工智能·机器学习