大语言模型微调框架Unsloth:简化模型微调流程,提升模型性能

Unsloth 将 Llama-3、Mistral、Phi-3 和 Gemma 等大型语言模型的微调速度提高了 2 倍,内存使用量减少了 70%,而且准确性不会降低!

特点

  • 通过手动派生所有计算繁重的数学步骤和手写 GPU 内核,unsloth 可以在不更改任何硬件的情况下神奇地使训练更快。
  • 与 Flash Attention 2 (FA2) 相比,在单个 GPU 上快 10 倍,在多个 GPU 系统上快 32 倍。
  • 我们支持从 Tesla T4 到 H100 的 NVIDIA GPU,并且可以移植到 AMD 和 Intel GPU。

支持模型

可以看到主流的开源模型基本都有支持,Llama、Qwen、Mistral、Gemma、Phi等等

版本

本身开源(Free),同样也支持企业级操作,费用见下图

Google Colab支持

Unsloth 开源版本可以安装在本地或像 Google Colab 这样的其他 GPU 服务中。大多数人通过 Google Colab 界面使用 Unsloth,它提供了一个免费的 GPU 来训练。

链接地址:https://docs.unsloth.ai/get-started/unsloth-notebooks

开源地址:https://github.com/unslothai/unsloth

可以点击里面的"start for free"直接开始你的微调工作。

相关推荐
果冻人工智能1 小时前
2025 年将颠覆商业的 8 大 AI 应用场景
人工智能·ai员工
代码不行的搬运工1 小时前
神经网络12-Time-Series Transformer (TST)模型
人工智能·神经网络·transformer
石小石Orz1 小时前
Three.js + AI:AI 算法生成 3D 萤火虫飞舞效果~
javascript·人工智能·算法
孤独且没人爱的纸鹤1 小时前
【深度学习】:从人工神经网络的基础原理到循环神经网络的先进技术,跨越智能算法的关键发展阶段及其未来趋势,探索技术进步与应用挑战
人工智能·python·深度学习·机器学习·ai
阿_旭1 小时前
TensorFlow构建CNN卷积神经网络模型的基本步骤:数据处理、模型构建、模型训练
人工智能·深度学习·cnn·tensorflow
羊小猪~~1 小时前
tensorflow案例7--数据增强与测试集, 训练集, 验证集的构建
人工智能·python·深度学习·机器学习·cnn·tensorflow·neo4j
极客代码1 小时前
【Python TensorFlow】进阶指南(续篇三)
开发语言·人工智能·python·深度学习·tensorflow
zhangfeng11331 小时前
pytorch 的交叉熵函数,多分类,二分类
人工智能·pytorch·分类
Seeklike1 小时前
11.22 深度学习-pytorch自动微分
人工智能·pytorch·深度学习
庞传奇1 小时前
TensorFlow 的基本概念和使用场景
人工智能·python·tensorflow