机械臂模仿学习2.3:生成式对抗模仿学习GAIL

概念

是一种让计算机通过观察专家示范来学会完成任务的机器学习方法。

可以把它想象成一个"表演家 "和"评论家"之间的博弈:

  • 表演家(生成器):一个新手,试图模仿专家的动作。

  • 评论家(判别器):一个考官,火眼金睛地分辨哪些动作是专家的,哪些是新手模仿的。

随着博弈的进行,新手为了骗过考官,会模仿得越来越像,最终成为一个能像专家一样熟练执行任务的"行家"。

生成器(generator)和判别器(discriminator)各是一个神经网络。生成器负责生成假的样本,而判别器负责判定一个样本是真是假。

工作流程

  1. 对抗博弈 :整个过程是一个"最小-最大"博弈。智能体(生成器)的目标是最小化 自己与专家的差距,而判别器的目标是最大化自己分辨真伪的能力。

  2. 充当评论家:判别器像一个不断进化的"专家鉴定师",它被训练去区分哪些"状态-动作对"来自真正的专家,哪些来自正在学习的智能体。

  3. 充当表演家:智能体(生成器)则在环境中行动。它的"奖励"不是来自环境,而是来自判别器的打分。如果判别器认为它的行为像专家,它就得到高分。为了持续获得高分,智能体必须不断调整自己的策略,让自己更像专家

相关推荐
鱼鳞_6 分钟前
Java学习笔记_Day21(Set)
java·笔记·学习
鹅天帝7 分钟前
20260407网安学习日志——序列化漏洞
前端·学习·web安全·网络安全·xss
何如呢10 分钟前
FPGA初学习2
学习
头疼的程序员10 分钟前
计算机网络:自顶向下方法(第七版)第八章 学习分享(二)
学习·计算机网络
世人万千丶11 分钟前
开源鸿蒙跨平台Flutter开发:幼儿园成语序列与海马体印迹锚定引擎-突触链式网络渲染架构
学习·flutter·开源·harmonyos·鸿蒙
迷路爸爸18012 分钟前
Docker 入门学习笔记 02:基础命令、前后台运行,以及 attach、logs、exec 的区别
笔记·学习·docker
Dovis(誓平步青云)13 分钟前
《QT学习第二篇:QT的常用控件属性与按钮、view系列、Label、输入框》
开发语言·qt·学习
艾莉丝努力练剑15 分钟前
【Linux系统:多线程】线程概念与控制
linux·运维·服务器·c++·后端·学习·操作系统
徒 花18 分钟前
Python知识学习03
开发语言·python·学习
世人万千丶22 分钟前
开源鸿蒙跨平台深度解析:Flutter Pigeon 跨平台官方示例适配全流程与底层故障溯源
学习·flutter·华为·开源·harmonyos·鸿蒙系统