【第三十周】机器学习笔记三十

摘要

本周进一步学习了强化学习的reward-shaping的概念,理解reward-shaping是为了解决稀疏奖励问题而提出的一种技术。

abstract

This week, I further studied the concept of reward-shaping in reinforcement learning and understood that reward-shaping is a technique proposed to solve the sparse reward problem.

一、

面对稀疏奖励(Sparse Reward)时遇到的问题,以及一种常见的解决思路是定义额外奖励

优势函数A_t 衡量的是,在状态 s_t 下采取某个具体的动作 a_t ,比"平均表现"

· 若 A_t > 0 :说明这个动作比平均好,应该鼓励。

· 若 A_t < 0 :说明这个动作比平均差,应该避免。

但存在一个问题核心痛点:奖励稀疏

在一开始的情况可能出现大多数情况下奖励都是0,这可能导致训练进度极其缓慢甚至无法进行。在拧螺丝的过程中,机械臂只有在最后成功拧紧的那一瞬间才可能得到奖励 r_t=1 。在抵达目标之前漫长的移动、对准过程中,得到的奖励都是 r_t=0 。因此尝试额外奖励在拧螺丝的任务中,可以定义:

· 当机械臂手爪靠近螺丝时,给一个小奖励。

· 当手爪接触到螺丝时,再给一个小奖励。

· 当螺丝被拧入第一圈时,再给一个小奖励。

二、基于势能的奖励塑造

核心思想:如果奖励塑造函数 FF 被定义为一个势能函数 Φ(s)Φ(s) 的差分形式,那么它就不会改变原问题的最优策略。势能函数 Φ(s)Φ(s):这是一个为每个状态 ss 赋予一个数值的函数,这个数值代表了该状态的"潜在价值"或"好坏程度"。基于势能的奖励塑造函数的定义:

F(s,a,s′)=γΦ(s′)------Φ(s)F(s,a,s′)=γΦ(s′)------Φ(s)其中 γ是折扣因子。这个 FF 像是在引导智能体沿着势能增加的方向前进。它不会创造新的局部最优陷阱,也不会消除原有的最优路径,它只是为已有的最优路径上"贴了路标",让智能体更容易找到它。

相关推荐
sulikey7 小时前
个人Linux操作系统学习笔记6 - 操作系统与进程初识
linux·笔记·学习·操作系统·进程
XGeFei8 小时前
【Fastapi学习笔记(3)】——资源的层级关系、安全性-幂等性、Field、工厂函数
笔记·学习·fastapi
星恒随风9 小时前
Python 基础语法详解(一):从表达式、变量到数据类型
开发语言·笔记·python·学习
暴躁小师兄数据学院11 小时前
【AI大数据工程师特训笔记】第14讲:Linux操作系统与shell脚本
大数据·人工智能·笔记
土狗TuGou11 小时前
SQL内功笔记 · 第8篇:事务的四大特性与隔离级别
数据库·笔记·后端·sql·mysql·oracle
智者知已应修善业12 小时前
【51单片机用T0定时器方式1,实现0.5S的时间间隔实现第一次一个灯亮、第二次二个灯亮,直到全部灯亮,然后重复整个过程】2023-12-29
c++·经验分享·笔记·算法·51单片机
智者知已应修善业12 小时前
【51单片机4位静态数码管显示1234】2023-11-14
c++·经验分享·笔记·算法·51单片机
whyTeaFo13 小时前
MIT6.1810: xv6 book Chapter4: Traps and system calls 笔记
笔记
jimbo_lee13 小时前
yocto 用法(随手笔记,记录以备不时之需)
笔记·yocto
胡图图不糊涂^_^15 小时前
测试用例篇——设计测试用例的方法
笔记·学习·测试用例·判定表法·正交法生成用例测试·等价类·边界值