很多人说大模型微调门槛高,尤其是在阿里云 DSW 这种云环境里,光是环境配置和网络问题就能劝退新手。我这次亲身体验了一遍,从模型下载、环境配置、训练启动到权重合并,踩了几乎所有新手会遇到的坑,也总结了一套能一次跑通的完整流程。
如果你也想在阿里云 DSW 上微调 Qwen3 模型,却卡在网络不通、依赖报错、模型加载失败的环节,这篇文章会是你的避坑指南。
首先我们需要在gitHub上下载LlamaFactory这个训练框架文件,如图:

下载完以后,进入魔搭社区,登录
如果你没有注册阿里云百炼账号,可以先注册,新人有免费的额度可以使用
登录魔搭社区与阿里云百炼相绑定,进入此界面,点击"我的Notebook"

点击方法二,蓝色边框中的免费额度,免费额度是36个小时

点击"预装镜像"下拉框,选择一个镜像安装

点击启动,通常会等待1-2分钟不等

出现"查看Notebook"就是启动成功了,点击"查看Notebook",进入以下界面:

点击"Terminal",进入终端


在终端中输入以下命令:
bash
# 快速、精简地拿到 LLaMA-Factory 最新代码,用于后续安装、微调 Qwen3 模型
git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git
# 进入LlamaFactory文件夹
cd LlamaFactory
# 安装所需要的库
pip install -e .
pip install -r requirements/metrics.txt

如果出现下面的情况(不是核心库的版本冲突):
暂时不用管,要是你擅自手动安装,会使得这个终端的环境报废,得重新进入新的终端输入命令
如果出现核心库的版本冲突:比如torch、torchvision等,去问问豆包,或者换一个镜像重新启动(我也不知道具体怎么解决)
接着对某个模型进行微调、推理和合并
我以 Qwen3-4B-Instruct为例:
首先,去千问的官网下载模型:

点击"下载模型",找到"命令行下载",复制命令

回到DSW界面,粘贴进行下载模型
看到successful后就是下载成功了
接着分别输入以下命令:
bash
llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml # 微调
llamafactory-cli chat examples/inference/qwen3_lora_sft.yaml # 推理
llamafactory-cli export examples/merge_lora/qwen3_lora_sft.yaml # 合并
出现错误了:
怎样解决(例如examples/train_lora/qwen3_lora_sft.yaml):
找到该路径的qwen3_lora_sft.yaml文件并修改它的model_name_or_path
将原路径:Qwen/Qwen3-4B-Instruct-2507
改为:/mnt/workspace/.cache/modelscope/models/Qwen/Qwen3-4B-Instruct-2507
其他两个也是按照上述例子来解决
接着就是运行:
微调的结果:
推理:

合并:

到这里,我们已经成功在阿里云 DSW 上完成了 Qwen3-4B 大模型的 LoRA 微调,并合并得到了完整的模型文件。但这并不是终点,只是你大模型微调之路的起点。
接下来,你可以尝试用微调后的模型进行对话测试,也可以把它部署到 Ollama、vLLM 等平台上进行推理。如果你对模型效果不满意,还可以调整数据集、学习率、LoRA 参数重新训练。


