ms-swift 3.x和2.x中参数不一致的暗坑

虽然ms-swift 3.x发布也有一段时间 官方文档也对使用上参数的变动做了一些说明

ReleaseNote 3.0 --- swift 3.2.0.dev0 文档

但是这个说明基本上都是说 某些参数的命名 发生了变化

对于一些 参数命名没变但默认值/使用方式 的变化 暂时还没给出说明/统计文档

我这边基于工作中遇到的一些坑,整理了部分,希望大家在使用的时候留意。

注意,在这个文档里官方已给出的参数差异我在这不做赘述分析,只展示我个人发现的一些暗坑,时间关系没有做精准校对,如果发现写错or官方更新文档 还请评论区提醒我

一、MLLM中sft full时默认可训练参数的变化

在swift2.x版本中,对MLLM进行SFT full训练的时候,默认是全参数训练的,见

但是在3.x中很坑的一点是默认只训练LLM,冻结vision encoder和adapter。。。

所以在swift 3.x用full sft训练MLLM的时候,切记把freeze_vit和freeze_aligner参数设置为False

二、梯度累加gradient_accumulation_steps

这个参数影响了total_batch_size或者说模型训练花的steps

在2.x中,默认为一个公式计算方法,以8卡为例,这个数值默认为2,也就是说total_batch_size会翻倍

然而在3.x中,默认为1

所以就会导致如果非16卡训练,2.x中和3.x中即使对齐了batch_size,最终的训练step也会有出入。

三、推理的时候--model和--adapters的区别

官方总文档里应该是有写这俩参数的区分,但是因为踩过坑,我在这里再注明一下

当全参数(sft full)训练的时候,推理infer的时候用--model xxx/path

当lora训练的时候,推理用--adapters xxx/path

相关推荐
路弥行至6 分钟前
C语言入门教程 | 第一讲:C语言零基础入门教程:第一个程序到变量运算详解
c语言·开发语言·经验分享·笔记·单片机·其他·课程设计
beijingliushao22 分钟前
86-python电网可视化项目-6
开发语言·python·信息可视化·数据可视化
chenyuhao202433 分钟前
vector深度求索(上)实用篇
开发语言·数据结构·c++·后端·算法·类和对象
江公望38 分钟前
Qt中,Latin-1字符编码简介
开发语言·arm开发·qt
温启志c#43 分钟前
winform c# 做的2个运控平台,通过修改表格 的方式,也可以通过语音识别的交互方式,更加智能。
开发语言·c#
花心蝴蝶.1 小时前
JVM 内存结构
java·开发语言·jvm
97zz1 小时前
实战排查:Java 解析 Excel 大型 导致内存溢出问题的完整解决过程
java·开发语言·spring boot·excel
小小测试开发2 小时前
Python + MediaPipe 手势绘画高级应用:从基础到创意交互
开发语言·python·交互
会跑的葫芦怪2 小时前
Go tool pprof 与 Gin 框架性能分析完整指南
开发语言·golang·gin
爱学习的小道长2 小时前
Python调用优云智算安装的ComfyUI服务器
服务器·开发语言·python