ddpo - ddpo技术,学习,经验文章

HuggingFace

3 年前

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型扩散模型 (如 DALL-E 2、Stable Diffusion) 是一类文生图模型，在生成图像 (尤其是有照片级真实感的图像) 方面取得了广泛成功。然而，这些模型生成的图像可能并不总是符合人类偏好或人类意图。因此出现了对齐问题，即如何确保模型的输出与人类偏好 (如“质感”) 一致，或者与那种难以通过提示来表达的意图一致？这里就有强化学习的用武之地了。