SFT(监督微调,Supervised Fine-Tuning)
训练方式:基于人工标注的高质量对话数据进行训练
目标:学习人类偏好和对话模式,理解指令并生成合适的回复
特点: 相对直接的监督学习 更像"老师教学生"的模式
学习人类的对话风格和质量标准 ,稳定性较高,风险相对可控.

SFT(监督微调,Supervised Fine-Tuning)
训练方式:基于人工标注的高质量对话数据进行训练
目标:学习人类偏好和对话模式,理解指令并生成合适的回复
特点: 相对直接的监督学习 更像"老师教学生"的模式
学习人类的对话风格和质量标准 ,稳定性较高,风险相对可控.
