机械臂模仿学习2.3：生成式对抗模仿学习GAIL

SteveSenna2026-03-14 17:41

是一种让计算机通过观察专家示范来学会完成任务的机器学习方法。

可以把它想象成一个"表演家 "和"评论家"之间的博弈：

随着博弈的进行，新手为了骗过考官，会模仿得越来越像，最终成为一个能像专家一样熟练执行任务的"行家"。

生成器(generator)和判别器(discriminator)各是一个神经网络。生成器负责生成假的样本，而判别器负责判定一个样本是真是假。

对抗博弈 ：整个过程是一个"最小-最大"博弈。智能体（生成器）的目标是最小化 自己与专家的差距，而判别器的目标是最大化自己分辨真伪的能力。
充当评论家：判别器像一个不断进化的"专家鉴定师"，它被训练去区分哪些"状态-动作对"来自真正的专家，哪些来自正在学习的智能体。
充当表演家：智能体（生成器）则在环境中行动。它的"奖励"不是来自环境，而是来自判别器的打分。如果判别器认为它的行为像专家，它就得到高分。为了持续获得高分，智能体必须不断调整自己的策略，让自己更像专家