Mac训练大模型:MLX-LM框架LoRA训练Qwen3并集成SwanLab进行可视化

MLX LM 是由 Apple 机器学习研究团队开发的开源 Python 软件包,专门用于在 Apple Silicon(M1、M2、M3 等芯片)上高效运行和微调大型语言模型(LLM)。它基于 MLX 框架,充分利用 Apple 的统一内存架构和 Metal 性能着色器(Metal Performance Shaders)来优化性能,特别适合在 Mac 设备上本地运行和开发 AI 模型。

你可以使用 MLX LM 快速进行模型训练,同时使用SwanLab进行实验跟踪与可视化。

1. 环境安装

bash 复制代码
pip install mlx-lm swanlab

2. Lora微调

使用mlx-lm训练LLM的流程非常简单,案例可以在 mlx-lm/examples 中找到。

下面主要以Lora微调为例,这是一个用Qwen3-0.6B模型进行Lora微调的MLX-LM配置文件:

yaml 复制代码
model: "Qwen/Qwen3-0.6B"
train: true
fine_tune_type: lora
optimizer: adamw
data: "mlx-community/WikiSQL"
seed: 0
num_layers: 16
batch_size: 4
iters: 1000
val_batches: 25
learning_rate: 1e-5
steps_per_report: 10
steps_per_eval: 200
resume_adapter_file: null
adapter_path: "adapters"
save_every: 100
test: false
test_batches: 100
max_seq_length: 2048
grad_checkpoint: false
lora_parameters:
  keys: ["self_attn.q_proj", "self_attn.v_proj"]
  rank: 8
  scale: 20.0
  dropout: 0.0

将这个配置文件保存到本地,文件名用qwen3_sft.yaml

然后使用下面的命令,就可以启动训练,并将训练过程记录到SwanLab上:

bash 复制代码
mlx_lm.lora --config qwen3_sft.yaml --report-to swanlab --project-name MLX-LM

3. 可视化效果

相关推荐
风途知识百科12 小时前
扼流圈GNSS监测站
人工智能
阿里云大数据AI技术12 小时前
阿里云 PAI 团队获邀在 ChinaSys 2025 分享动态数据调度方案 Skrull
人工智能·阿里云·pai·chinasys
彼岸花开了吗12 小时前
构建AI智能体:六十五、模型智能训练控制:早停机制在深度学习中的应用解析
人工智能·python
week_泽12 小时前
2、OpenCV Harris角点检测笔记
人工智能·笔记·opencv
小真zzz12 小时前
ChatPPT × Nano Banana Pro:AI演示设计的王者革新
人工智能·ai·powerpoint·ppt·chatppt·nano banana pro·创意绘图
NAGNIP12 小时前
Hugging Face 200页的大模型训练实录
人工智能·算法
import_random12 小时前
[深度学习]RNN,LSTM,GRU(联系和区别)
深度学习
没有梦想的咸鱼185-1037-166312 小时前
面向自然科学的人工智能建模方法【涵盖机器学习与深度学习的核心方法(如随机森林、XGBoost、CNN、LSTM、Transformer等)】
人工智能·深度学习·随机森林·机器学习·数据分析·卷积神经网络·transformer
NAGNIP12 小时前
Transformer 中为什么用LayerNorm而不用BatchNorm?
人工智能·面试
阿里云云原生12 小时前
AgentRun:如何利用 AI Agent 构建现代化的舆情分析解决方案?
人工智能·unity·游戏引擎