dpo

威化饼的一隅

【多模态】DPO学习笔记RLHF需要使用人标注的偏好数据对，先训练一个reward model，然后再让reward model和LLM做强化学习【1】SFT训练LLM：使用目标任务的训练数据训练得到的模型记为 π S F T \pi^{SFT} πSFT 【2】训练reward model：使用目标任务的另一份数据 x x x输入 π S F T \pi^{SFT} πSFT，每份数据得到2个输出，记为 ( y 1 , y 2 ) ∼ π S F T ( y ∣ x ) (y_1,y_2) \sim \pi^{SFT}(

直接偏好优化（DPO）：原理、演进与大模型对齐新范式直接偏好优化（Direct Preference Optimization, DPO）是由斯坦福大学与 CZ Biohub 研究团队于 2023 年提出的突破性方法，用于直接基于人类偏好数据微调大语言模型（LLMs），无需显式训练奖励模型或依赖强化学习（RL）。其核心思想是将模型自身隐式转化为奖励函数，通过数学变换将复杂的强化学习问题转化为简洁的监督学习目标，显著提升训练效率与稳定性。

GPT-4o微调SFT及强化学习DPO数据集构建假设，已经标注的训练数据集df包含了提示词、输入和输出三列。构建微调SFT的数据集代码如下：假设，已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

[COLM 2024] V-STaR: Training Verifiers for Self-Taught Reasoners读完STaR后，最直观的想法，1）数据利用率不够，合理化依然没有利用好剩下的数据，而剩下的数据对提高模型性能可能很重要（硬骨头），此外，模型没有一次性答对的样本也没有用上（即剩下的样本），这些一次没答对的数据中，可能部分步骤是有益的，能否利用上？或者错误的步骤能否也利用上？ 2）由于LLM有随机性，应该让它多次输出，然后选最好的答案。如何选最好，比起用分类任务来做，不如用排序任务来做。因此可能需要QA模型多次输出，然后让一个模型来对答案排序。

11. DPO 微调示例：根据人类偏好优化LLM大语言模型在部署大模型之后，我们必然要和微调打交道。现在大模型的微调有非常多的方法，过去的文章中提到的微调方法通常依赖于问题和答案对，标注成本较高。

LLM - 理解多模态大语言模型(MLLM) 的对齐微调(Alignment) 与相关技术 (五)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142354652

深入理解DPO（Direct Preference Optimization）算法直接偏好优化（Direct Preference Optimization, DPO）是一种不需要强化学习的对齐算法。由于去除了复杂的强化学习算法，DPO 可以通过与有监督微调（SFT）相似的复杂度实现模型对齐，不再需要在训练过程中针对大语言模型进行采样，同时超参数的选择更加容易。

Apple LLM: 智能基础语言模型（AFM）今天想和大家分享一下我最近在arXiv.org上看到苹果发表的一篇技术论文 Apple Intelligence Foundation Language Models (https://arxiv.org/abs/2407.21075)，概述了他们的模型训练。这虽然出乎意料，但绝对是一个积极的惊喜！

为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本，因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项，通常可以简化这一过程，并产出更准确的结果。通过对候选回答的对比和排序，而不是赋予固定的标签，偏好优化使得模型能更高效地捕捉人类偏好中的细微差别。

阿姆姆姆姆姆姆姆

RLAIF（0）—— DPO（Direct Preference Optimization）原理与代码解读之前的系列文章：介绍了 RLHF 里用到 Reward Model、PPO 算法。但是这种传统的 RLHF 算法存在以下问题：流程复杂，需要多个中间模型对超参数很敏感，导致模型训练的结果不稳定。斯坦福大学提出了 DPO 算法，尝试解决上面的问题，DPO 算法的思想也被后面 RLAIF（AI反馈强化学习）的算法借鉴，这个系列会从 DPO 开始，介绍 SPIN、self-reward model 算法。而 DPO 本身是一种不需要强化学习的算法，简化了整个 RLHF 流程，训练起来会更简单。

代码讲故事

MedicalGPT 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)MedicalGPT 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。 MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。