大模型垂直领域微调系列(二):ms-swift 框架全景

大模型垂直领域微调系列(二):ms-swift 框架全景

作者:吴佳浩

撰稿时间:2026-3-9

测试版本:ms-swift v4.0.1


目录

  • [1. ms-swift 是什么](#1. ms-swift 是什么)
  • [2. 核心能力全景](#2. 核心能力全景)
  • [3. 整体架构与模块设计](#3. 整体架构与模块设计)
  • [4. 支持的模型](#4. 支持的模型)
  • [5. 支持的训练方法](#5. 支持的训练方法)
  • [6. 推理与部署模块](#6. 推理与部署模块)
  • [7. 评测模块](#7. 评测模块)
  • [8. 量化与导出模块](#8. 量化与导出模块)
  • [9. Megatron-SWIFT 并行训练](#9. Megatron-SWIFT 并行训练)
  • [10. Web-UI 可视化界面](#10. Web-UI 可视化界面)
  • [11. 环境安装](#11. 环境安装)
  • [12. 根据资源选择训练方案](#12. 根据资源选择训练方案)

1. ms-swift 是什么

ms-swift(ModelScope Scalable lightWeight Infrastructure for Fine-Tuning)是阿里云魔搭社区(ModelScope)开源的大模型与多模态大模型微调部署一体化框架。

核心定位 :让开发者用最少的代码和资源,完成大模型从训练到上线的完整链路,不需要任何深度学习代码,命令行即可完成一站式操作

论文背书:已在 AAAI 2025 发表,arXiv:https://arxiv.org/abs/2408.05517

版本说明

  • ms-swift 4.x(main 分支):最新版本,本文基于此版本
  • ms-swift 3.x(release/3.12 分支):稳定版本
  • ms-swift 2.x:已停止主要更新

核心规模数字

指标 数量
支持纯文本大模型 600+
支持多模态大模型 400+
内置训练数据集 150+
支持训练方法(PEFT + 其他) 15+
支持评测数据集 100+
支持推理引擎 4 种(Transformers/vLLM/LMDeploy/SGLang)
支持硬件 NVIDIA GPU、Ascend NPU、MPS、CPU

2. 核心能力全景

ms-swift 的核心能力可分为五大板块:
ms-swift
训练
CPT
SFT
RLHF
GRPO
Embedding
推理
Transformers
vLLM
LMDeploy
SGLang
评测
EvalScope
Benchmark
量化
AWQ
GPTQ
BNB
FP8
部署
OpenAI API
Web UI
ModelScope

亮点特性

热门模型 Day-0 支持:主流开源模型发布当天,ms-swift 即跟进支持,是目前响应速度最快的微调框架之一。

全模态覆盖:不仅支持纯文本大模型,还全面支持图像、视频、音频多模态模型,以及 All-to-All 全模态模型(如 Qwen3-Omni)。

GRPO 算法族完整实现:内置 GRPO、DAPO、GSPO、SAPO、CISPO、CHORD、RLOO、Reinforce++ 等多种强化学习算法变体,同时支持同步和异步 vLLM 引擎加速采样。

Megatron 并行集成:集成 Megatron 并行技术,支持 TP/PP/SP/CP/EP/VPP 等多种并行策略,可将 MoE 模型训练速度提升约 10 倍。


3. 整体架构与模块设计

3.1 全链路架构

Input
Output
swift eval
swift export
swift web-ui
Inference
swift infer
swift deploy
swift app
Training
swift sft
swift pt
swift rlhf
数据集
基础模型
训练配置

3.2 两种使用方式

方式一:命令行(CLI)------ 推荐

所有功能都通过 swift 命令驱动,参数化配置,无需写任何训练代码:

bash 复制代码
# 训练
swift sft --model ... --dataset ... --tuner_type lora

# 推理
swift infer --adapters ...

# 部署
swift deploy --adapters ... --infer_backend vllm

# 评测
swift eval --adapters ...

# 量化导出
swift export --adapters ... --quant_bits 4

方式二:Python API

适合需要在代码中集成训练/推理流程的场景:

python 复制代码
from swift import TransformersEngine, InferRequest, RequestConfig

engine = TransformersEngine(
    model_id_or_path="Qwen/Qwen3-7B-Instruct",
    adapters=["output/checkpoint-xxx"]
)

infer_request = InferRequest(
    messages=[{'role': 'user', 'content': '你好'}]
)
request_config = RequestConfig(max_tokens=512, temperature=0.1)
resp_list = engine.infer([infer_request], request_config)
print(resp_list[0].choices[0].message.content)

方式三:Web-UI

基于 Gradio 的可视化界面,零代码完成全链路操作,一条命令启动:

bash 复制代码
swift web-ui
# 默认访问 http://localhost:7860

4. 支持的模型

4.1 纯文本大模型(600+)

ms-swift 对以下主流模型系列提供完整支持:

模型系列 代表模型 参数规模 特点
Qwen3 / Qwen2.5 Qwen3-4B/7B/14B/32B/72B 0.6B~235B 中文能力强,推荐首选
DeepSeek-R1 / V3 DeepSeek-R1-7B/14B/32B/70B 7B~671B 推理能力突出
Llama 4 / 3.3 / 3.1 Llama-3.1-8B/70B/405B 1B~405B 英文能力强,社区资源丰富
InternLM3 InternLM3-8B/20B 8B~20B 中英双语,学术友好
GLM4.5 GLM4.5-9B 9B 对话能力出色
Mistral / Mixtral Mistral-7B、Mixtral-8x7B 7B~141B MoE 架构代表
Phi-4 Phi-4-14B 14B 小参数高性能
Gemma3 Gemma3-4B/12B/27B 1B~27B Google 出品

4.2 多模态大模型(400+)

模型系列 支持模态 特点
Qwen3-VL 图像+文本 强视觉理解,文档/图表分析优秀
Qwen3-Omni 图像+音频+文本 全模态,端到端处理
InternVL3.5 图像+文本 高分辨率图像,OCR 能力强
MiniCPM-V-4 图像+文本 轻量高效,端侧友好
LLaVA 图像+文本 社区广泛使用
DeepSeek-VL2 图像+文本 MoE 架构,效率高
GLM4.5-V 图像+文本 中文图文理解出色
Ovis2.5 图像+文本 视觉指令跟随优秀

4.3 模型下载说明

ms-swift 默认从 ModelScope 下载模型,如需使用 HuggingFace:

bash 复制代码
# 使用 HuggingFace
swift sft --model meta-llama/Llama-3.1-8B-Instruct --use_hf true

# 离线环境使用本地模型
swift sft --model /path/to/local/model --check_model false

5. 支持的训练方法

5.1 轻量微调方法(PEFT)

轻量微调 PEFT
LoRA 系列
Adapter 系列
其他方法
LoRA
QLoRA
DoRA
LoRA+
RS-LoRA
LongLoRA
AdaLoRA
Adapter
LLaMA-Pro
LISA
ReFT
VeRA
BOFT
FourierFT
GaLore
UnSloth

各方法适用场景速查

方法 显存需求 训练速度 效果 最适合场景
LoRA 中(16~24G) 绝大多数场景首选
QLoRA 低(9~12G) 中高 消费级 GPU,快速验证
DoRA 较快 LoRA 效果不稳定时
LoRA+ 更快 追求更快收敛
AdaLoRA 自动调整各层 rank
LLaMA-Pro 最大程度保留原有能力
LISA 极低(<8G) 超低资源,超大模型
GaLore 全参训练的低显存替代
UnSloth 最快 追求训练速度

5.2 全量微调(Full Fine-tuning)

bash 复制代码
# 全参微调示例(需要大显存)
CUDA_VISIBLE_DEVICES=0,1,2,3 NPROC_PER_NODE=4 \
swift sft \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type full \
    --deepspeed zero2 \
    --dataset your_data.jsonl \
    --torch_dtype bfloat16 \
    --num_train_epochs 2 \
    --learning_rate 1e-5 \
    --output_dir output

5.3 训练加速技术

ms-swift 内置多种训练加速与显存优化技术:

技术 参数 效果 说明
Flash Attention 2/3 --attn_impl flash_attn 速度提升 + 显存降低 A100/H100 强烈推荐
Gradient Checkpointing --gradient_checkpointing true 显存降低 40% 默认开启,略降速度
Packing --packing true GPU 利用率提升 将短序列打包到 max_length
Padding-free --padding_free true 显存降低 + 速度提升 需配合 flash_attn
Sequence Parallel --sequence_parallel_size N 支持超长序列 多卡序列并行
Liger-Kernel pip install liger-kernel 显存降低 算子融合优化

5.4 分布式训练支持

分布式训练策略
DDP 数据并行
DeepSpeed
FSDP / FSDP2
Megatron 并行
ZeRO-1
ZeRO-2
ZeRO-3
张量并行 TP
流水线并行 PP
序列并行 SP
专家并行 EP

DeepSpeed ZeRO 策略选择

策略 显存优化 通信开销 适用场景
ZeRO-1 显存充足,求速度
ZeRO-2 多卡 SFT 推荐
ZeRO-3 高(可训超大模型) 70B+ 模型,显存紧张
bash 复制代码
# 多卡 DeepSpeed ZeRO-2 训练
NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift sft \
    --model Qwen/Qwen3-14B-Instruct \
    --tuner_type lora \
    --deepspeed zero2 \
    --dataset your_data.jsonl \
    --output_dir output

5.5 RLHF 偏好对齐训练

ms-swift 通过 swift rlhf 命令统一管理所有偏好对齐任务:

bash 复制代码
# DPO 训练
CUDA_VISIBLE_DEVICES=0 \
swift rlhf \
    --rlhf_type dpo \
    --model Qwen/Qwen3-7B-Instruct \
    --dataset hjh0119/shareAI-Llama3-DPO-zh-en-emoji \
    --tuner_type lora \
    --lora_rank 16 \
    --learning_rate 1e-5 \
    --output_dir output

DPO 数据集格式(每条样本需要 chosen 和 rejected 两个回答):

jsonc 复制代码
{
  "messages": [
    {"role": "system", "content": "你是一名客服助手"},
    {"role": "user", "content": "你们的退款政策是什么?"}
  ],
  "chosen": "我们支持7天无理由退款,您只需在APP内申请即可,通常1~3个工作日到账。",
  "rejected": "退款很麻烦,要看情况的。"
}

KTO 训练(只需好/坏标签,无需配对)

bash 复制代码
CUDA_VISIBLE_DEVICES=0 \
swift rlhf \
    --rlhf_type kto \
    --model Qwen/Qwen3-7B-Instruct \
    --dataset your_kto_data.jsonl \
    --tuner_type lora \
    --output_dir output

KTO 数据格式:

jsonc 复制代码
{
  "messages": [
    {"role": "user", "content": "问题内容"}
  ],
  "label": true
}

其中 label: true 表示这条回答是好的,label: false 表示是坏的。

5.6 GRPO 强化学习训练

GRPO 是目前最流行的强化微调方法,特别适合数学推理、代码生成等可以程序化验证正确性的任务:

bash 复制代码
# GRPO 数学推理训练(4 卡)
CUDA_VISIBLE_DEVICES=0,1,2,3 NPROC_PER_NODE=4 \
swift rlhf \
    --rlhf_type grpo \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type lora \
    --use_vllm true \
    --vllm_mode colocate \
    --dataset AI-MO/NuminaMath-TIR#10000 \
    --reward_funcs accuracy \
    --num_generations 8 \
    --max_completion_length 2048 \
    --learning_rate 1e-6 \
    --output_dir output

GRPO 数据格式(query 列 + ground_truth 列):

jsonc 复制代码
{
  "messages": [
    {"role": "user", "content": "计算 2x + 3 = 11,求 x"}
  ],
  "ground_truth": "x = 4"
}

内置奖励函数accuracy(答案准确率)、format(格式正确率);也支持通过 --external_plugins 传入自定义奖励函数。


6. 推理与部署模块

6.1 四种推理引擎

推理引擎选择
Transformers
vLLM
LMDeploy
SGLang
开发测试
CPU 可用
高并发生产
PagedAttention
低延迟
移动端/边缘端
复杂推理链
批处理优化

引擎 启动参数 吞吐量 延迟 适用场景
Transformers(默认) --infer_backend transformers 开发测试,支持 CPU
vLLM --infer_backend vllm 极高 高并发在线服务
LMDeploy --infer_backend lmdeploy 极低 低延迟场景,边缘部署
SGLang --infer_backend sglang 复杂推理链,长文本

6.2 交互式推理

bash 复制代码
# 使用 Transformers 引擎(开发/调试)
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/checkpoint-xxx \
    --stream true \
    --temperature 0 \
    --max_new_tokens 2048

# merge LoRA 后使用 vLLM 加速
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/checkpoint-xxx \
    --stream true \
    --merge_lora true \
    --infer_backend vllm \
    --vllm_max_model_len 8192 \
    --temperature 0 \
    --max_new_tokens 2048

注意:--adapters 指向 checkpoint 目录,ms-swift 会自动读取训练时保存的配置(包括基础模型路径、system prompt 等),无需重复指定。

6.3 部署为 OpenAI 兼容 API 服务

bash 复制代码
# 使用 vLLM 后端部署
CUDA_VISIBLE_DEVICES=0 \
swift deploy \
    --adapters output/checkpoint-xxx \
    --infer_backend vllm \
    --host 0.0.0.0 \
    --port 8000 \
    --vllm_max_model_len 8192

部署后自动提供 OpenAI 兼容 API,现有代码只需修改 base_url 即可接入:

python 复制代码
import openai

client = openai.OpenAI(
    base_url="http://your-server:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="your-model-name",
    messages=[{"role": "user", "content": "你好"}],
    temperature=0.1,
    max_tokens=512
)
print(response.choices[0].message.content)

6.4 Gradio 可视化应用

bash 复制代码
# 启动可视化对话界面
CUDA_VISIBLE_DEVICES=0 \
swift app \
    --model Qwen/Qwen3-7B-Instruct \
    --adapters output/checkpoint-xxx \
    --stream true \
    --infer_backend transformers \
    --lang zh

7. 评测模块

ms-swift 以 EvalScope 为评测后端,通过 swift eval 命令统一调用。

7.1 支持的评测数据集

类别 数据集
综合能力 CEval、MMLU、AGIEval、CMMLU
推理能力 ARC_c、ARC_e、HellaSwag、WinoGrande
数学能力 GSM8K、MATH、MATH-500
代码能力 HumanEval、MBPP
中文能力 C3、CLUEWSC2020、CHID
知识问答 TriviaQA、NaturalQuestions

7.2 标准评测命令

bash 复制代码
# 评测微调后的模型
CUDA_VISIBLE_DEVICES=0 \
swift eval \
    --adapters output/checkpoint-xxx \
    --infer_backend lmdeploy \
    --eval_backend OpenCompass \
    --eval_dataset CEval,ARC_c,GSM8K

# 评测基础模型(作为基准对比)
CUDA_VISIBLE_DEVICES=0 \
swift eval \
    --model Qwen/Qwen3-7B-Instruct \
    --eval_dataset CEval,ARC_c,GSM8K

7.3 评测结果解读

评测完成后会生成详细报告,关键关注点:

  • 通用能力分数变化:微调后相比基础模型,CEval/ARC 等通用评测的分数下降不超过 5% 为正常范围;下降超过 10% 说明训练数据单一,需要补充通用数据
  • 领域评测分数:与基础模型对比,领域任务准确率提升幅度

8. 量化与导出模块

8.1 支持的量化方法

方法 位宽 体积压缩 速度提升 精度损失 推荐场景
AWQ 4-bit ~75% 2~3x 极小 首选,生产部署
GPTQ 4-bit ~75% 1.5~2x 第二选择
BNB 4-bit ~75% 1.5x 开发测试,易安装
FP8 8-bit ~50% 1.5~2x 极小 H100 等新硬件

8.2 AWQ 量化命令(推荐)

bash 复制代码
# AWQ 4-bit 量化
CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/checkpoint-xxx \
    --merge_lora true \
    --quant_bits 4 \
    --quant_method awq \
    --dataset your_data.jsonl \
    --quant_n_samples 128 \
    --output_dir output/model_awq

8.3 推送到模型社区

bash 复制代码
# 推送到 ModelScope Hub
CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id 'your-username/your-model-name' \
    --hub_token 'your-sdk-token' \
    --use_hf false

# 推送到 HuggingFace Hub
CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id 'your-username/your-model-name' \
    --hub_token 'your-hf-token' \
    --use_hf true

8.4 合并 LoRA 权重

bash 复制代码
# 合并 LoRA 权重到基础模型(生产部署前推荐做)
swift export \
    --adapters output/checkpoint-xxx \
    --merge_lora true \
    --output_dir output/model_merged

9. Megatron-SWIFT 并行训练

对于超大模型(70B+)或需要极高训练吞吐量的场景,ms-swift 集成了 Megatron 并行技术。

9.1 支持的并行策略

并行策略 缩写 作用
张量并行 TP 将单层参数切分到多卡,减少单卡显存
流水线并行 PP 将模型层分组到不同节点,跨节点可用
序列并行 SP 序列维度并行,支持超长上下文
上下文并行 CP 长上下文并行注意力
专家并行 EP MoE 模型专家层分布
数据并行 DP 传统数据并行,速度最快

9.2 Megatron-SWIFT 快速入门

bash 复制代码
# 安装额外依赖
pip install transformer_engine
pip install megatron_patch  # 模型转换工具

# 将 HuggingFace 模型转换为 Megatron 格式
swift export \
    --model Qwen/Qwen2.5-7B-Instruct \
    --to_mcore true \
    --torch_dtype bfloat16

# 使用 Megatron-SWIFT 训练(2 卡,张量并行)
PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
NPROC_PER_NODE=2 CUDA_VISIBLE_DEVICES=0,1 \
megatron sft \
    --load Qwen2.5-7B-Instruct-mcore \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
    --tensor_model_parallel_size 2 \
    --sequence_parallel true \
    --micro_batch_size 16 \
    --global_batch_size 16 \
    --lr 1e-5 \
    --max_epochs 1 \
    --save megatron_output/Qwen2.5-7B \
    --max_length 2048

推荐在 MoE 模型训练时使用 Megatron-SWIFT,通常可获得约 10 倍训练速度提升。


10. Web-UI 可视化界面

Web-UI 是 ms-swift 提供的零门槛可视化操作界面,基于 Gradio 实现,支持完整的训练-推理-评测-量化全链路。

10.1 启动 Web-UI

bash 复制代码
# 本地启动
swift web-ui

# 指定端口
swift web-ui --port 7860

# 允许外网访问
swift web-ui --host 0.0.0.0 --port 7860

启动后浏览器访问 http://localhost:7860

10.2 Web-UI 功能模块

Web-UI 包含以下主要功能页面:

  • 训练页(Training):选择模型、数据集、训练方法、配置超参数,一键启动训练,实时查看 Loss 曲线
  • 推理页(Inference):加载训练后的模型,进行交互式对话测试
  • 评测页(Evaluation):选择评测集,一键评测,查看各项指标
  • 量化页(Quantization):选择量化方法,一键量化并导出

适合场景:

  • 快速验证新想法,无需写命令行
  • 非技术用户(如领域专家)参与数据验证和效果评估
  • 演示展示

11. 环境安装

11.1 系统要求

组件 最低要求 推荐版本
Python 3.9 3.11 / 3.12
PyTorch 2.0 2.8.0
CUDA 11.8 12.4 / 12.8
Transformers 4.33 4.57.6+
操作系统 Ubuntu 20.04 Ubuntu 22.04

11.2 支持的硬件

硬件类型 代表型号 适用场景
NVIDIA 企业卡 A100/H100/H200/A800 大规模训练
NVIDIA 消费卡 RTX 4090/3090/4080 个人/小团队
NVIDIA 数据中心卡 T4/V100/A10/A30 云端训练
华为昇腾 NPU Ascend 910B/910C 国产替代
Apple Silicon M1/M2/M3/M4 MPS 加速
CPU 任意 推理调试(不推荐训练)

11.3 安装命令

基础安装(最常用)

bash 复制代码
pip install ms-swift -U

国内镜像加速

bash 复制代码
pip install ms-swift -U -i https://pypi.tuna.tsinghua.edu.cn/simple

全能力安装(包含所有可选依赖)

bash 复制代码
pip install "ms-swift[all]" -U

源码安装(最新开发版)

bash 复制代码
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
# main 分支为 swift4.x
# 如需 swift3.x,请执行:git checkout release/3.12
pip install -e .
# 全能力
# pip install -e '.[all]'

11.4 官方 Docker 镜像

bash 复制代码
# swift 3.9.3(推荐生产使用)
docker pull modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.8.0-vllm0.11.0-modelscope1.31.0-swift3.9.3

# 启动容器
docker run -it --gpus all --ipc=host \
    -v /your/data:/data \
    modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.8.0-vllm0.11.0-modelscope1.31.0-swift3.9.3 \
    bash

11.5 按需安装可选依赖

bash 复制代码
# vLLM:高并发推理加速
pip install vllm>=0.5.1

# Flash Attention:训练加速,A100/H100 强烈推荐
pip install flash-attn --no-build-isolation

# DeepSpeed:多卡分布式训练
pip install deepspeed -U

# LMDeploy:低延迟推理
pip install lmdeploy

# 量化支持
pip install bitsandbytes>=0.41.0  # BNB 量化
pip install auto_gptq             # GPTQ 量化
pip install autoawq               # AWQ 量化

# 训练加速
pip install liger-kernel           # 算子融合

11.6 验证安装

bash 复制代码
# 检查 swift 版本
swift --help

# 检查 GPU
python -c "import torch; print(f'CUDA: {torch.cuda.is_available()}, GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else None}')"

# 快速冒烟测试(约 5 分钟)
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-4B-Instruct \
    --tuner_type lora \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#100' \
    --num_train_epochs 1 \
    --max_length 512 \
    --output_dir output/smoke_test

12. 根据资源选择训练方案

我的显卡情况
单卡显存多少?
8~12G
16~24G
40~80G
多卡
QLoRA 方案
LoRA 单卡方案
LoRA 或 Full FT
多卡 DeepSpeed 方案
7B 以内模型
7B~14B 模型
14B~70B 模型
任意规模模型

方案一:QLoRA(8~12G 显存)

适合:RTX 3060/4060/4060Ti,云端 T4

bash 复制代码
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type lora \
    --quant_bits 4 \
    --quant_method bnb \
    --lora_rank 8 \
    --lora_alpha 16 \
    --target_modules all-linear \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --max_length 1024 \
    --dataset your_data.jsonl \
    --output_dir output

方案二:LoRA 单卡(16~24G 显存)

适合:RTX 3090/4090,A10,云端 V100

bash 复制代码
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-7B-Instruct \
    --tuner_type lora \
    --lora_rank 16 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --torch_dtype bfloat16 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --max_length 2048 \
    --dataset your_data.jsonl \
    --output_dir output

方案三:多卡 DeepSpeed(多张 A100/H100)

适合:大规模生产训练,14B~70B 模型

bash 复制代码
NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift sft \
    --model Qwen/Qwen3-14B-Instruct \
    --tuner_type lora \
    --deepspeed zero2 \
    --lora_rank 16 \
    --lora_alpha 32 \
    --torch_dtype bfloat16 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --max_length 4096 \
    --dataset your_data.jsonl \
    --output_dir output

显存需求参考表

模型大小 训练方式 最低显存 推荐显存
4B QLoRA 6G 8G
4B LoRA 10G 12G
7B QLoRA 9G 12G
7B LoRA 16G 24G
7B Full FT 55G 80G x2
14B LoRA 28G 40G
14B Full FT 100G+ 80G x4
32B LoRA 60G 80G x2
70B LoRA 120G+ 80G x4
72B LoRA 120G+ 80G x4

命令速查表

操作 命令
监督微调(SFT) swift sft --model ... --dataset ...
持续预训练(CPT) swift pt --model ... --dataset ...
偏好对齐(RLHF) swift rlhf --rlhf_type dpo/kto/...
强化学习(GRPO) swift rlhf --rlhf_type grpo ...
推理(交互式) swift infer --adapters ...
推理(批量) swift infer --adapters ... --val_dataset ...
部署 API 服务 swift deploy --adapters ...
可视化对话 swift app --model ...
模型评测 swift eval --adapters ...
量化导出 swift export --quant_bits 4 --quant_method awq
合并 LoRA swift export --merge_lora true
推送模型 Hub swift export --push_to_hub true
启动 Web-UI swift web-ui

下一篇预告:第三篇将进入完整实战------自定义数据集格式规范、训练参数详解、训练过程监控、评测方法、部署上线,以及完整的常见问题排查和最佳实践清单。

相关推荐
bst@微胖子2 小时前
OpenCV 案例三【人脸比对】
人工智能·opencv·计算机视觉
米小虾2 小时前
从理论到实践:构建生产级 AI Agent 的完整指南
人工智能
chaors2 小时前
Langchain入门到精通0x07:基于Web网页的RAG实战
人工智能·langchain·ai编程
KG_LLM图谱增强大模型2 小时前
OpenClaw官方解密:开源AI Agent 智能体平台的蜕变之路
人工智能·开源
乘风破浪的小太阳2 小时前
Python之Playwright+AI UI自动化测试框架搭建与实战
人工智能·python·ui
TEC_INO2 小时前
Linux41:OPENCV图形计算面积、弧长API讲解
人工智能·opencv·计算机视觉
香草泡芙2 小时前
解锁AI Agent潜能:基于Langchain组件库的落地指南(1)
人工智能
chushiyunen2 小时前
pycharm打包whl
人工智能·pytorch·python