[PyTorch][chapter 58][强化学习-1]

前言:

RL(Reinfocement Learning) 强化学习 是机器学习,深度学习一个重点。

后面20章将重点结合一些例子回顾一下经典的强化学习算法。

这里重点介绍一下机器学习中的强化学习算法,以及Gym 工具

目录:

  1. 简介
  2. 强化学习基本要素
  3. 贪心算法
  4. softmax 算法
  5. Gym

一 简介

强化学习是智能体(Agent)以"试错"的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。


二 强化学习基本要素

|-------------|
| 强化学习五要素 |
| Agent |
| Environment |
| State |
| Action |
| Reward |

t 时刻 Agent 的状态

: t 时刻 Agent 根据当前的采取的action

: t时刻Agent 采取了action,状态更新到,得到的reward

策略: 在状态 下面,agent 选择a 的概率。

,通常用Qtable 来维护.

: Agent 在t时刻采取的动作 ,获得奖励 ,整个过程的贡献.

公式:

为greed算法即t时刻价值仅由t+1时刻收益决定

t时刻价值由随后每一步收益等比例决定。


贪心算法

这是机器学习里面一种经典的算法

参数说明:

: n次action 后的平均奖赏:

优化方案:通过每次通过单次奖赏与前边所有次的平均奖赏来计算本次动作后的平均奖赏

若每个动作奖赏的不确定性较大,如概率分布较宽时,则需更多的探索,此时需要较大的ϵ值

若每个动作奖赏的不确定性较小,如概率分布较集中时,则少量的尝试就能很好地近似真实奖赏,此时需要的ϵ较小通常令ϵ取一个较小的常数,如0.1或0.01

若尝试次数非常大,则在一段时间后,奖赏都能很好地近似出来,不再需要探索,这种情形下可让ϵ随着尝试次数的增加而逐渐减小,例如 ϵ=1∕√t


四: softmax

softmax算法是另一种对探索和利用进行这种的算法, 它基于Blotzmann分布:

公式16.4:

其中Q(i)为当前摇臂的平均奖励,
为温度:

其越小则平均奖励搞得摇臂被选取的概率越高,

趋于0时策略将趋于仅利用,

趋于无穷大时策略则将趋于仅探索.


五 Gym

是一个强化学习工具,里面包含很多游戏,用于验证强化学习算法

以一个乒乓球游戏为例:

复制代码
import gym

env = gym.make('Tennis-v4', render_mode="human")
#print("观测空间: ", env.observation_space)
print("动作空间       ", env.action_space)
print("动作空间s数      ", env.action_space.n)

state = env.reset()
#print("初始状态:", state)


for i in range(5000):
    action = env.action_space.sample()
    state, reward, done,  info = env.step(action)
    print('动作:', action, '当前状态:', state, '奖励:', reward, '是否结束:', done, '日志:', info)




print("\n ----end-----")
env.close()

函数介绍:

3.1 reset: 初始化

复制代码
'''
* @breif: 重置环境,回到初始状态
* @param[in]: seed	-> 随机种子
* @retval: 环境初始观测状态
'''
state = env.reset(seed=None)

3.2 make: 环境创建

复制代码
'''
* @breif: 生成环境对象
* @param[in]: id            ->  启用环境的名称
* @param[in]: render_mode   ->  渲染模式
* @retval: 环境对象
'''
env = gym.make(id:str, render_mode:str)

3.3 step

复制代码
'''
* @breif: 单步执行环境动力学过程
* @param[in]: 动作
* @retval: 四元组(当前状态, 奖励, 额外限制, 日志)
'''
state, reward, done,info = env.step(action)

3.4 close

复制代码
env.close()

上面我们通过不同的Algorithm,来更新Qtable,

当学习好了Qtable,

action=np.argmax: 我们可以根据当前的state,选择一个最优的action,

env.step(action): 根据action 来更新环境

env.render: 渲染当前的窗口

安装流程:aPytorch深度强化学习1-1:Gym安装与环境搭建教程(附基本指令表)_安装gym_Mr.Winter`的博客-CSDN博客

强化学习第一节(RL基本概念+工具+R算法)【个人知识分享】_哔哩哔哩_bilibili

第16节:强化学习RL_1.为何学习增强学习_[]_哔哩哔哩_bilibili

周志华《机器学习》"西瓜书"+"南瓜书" :第16章 强化学习

OpenAI Gym 经典控制环境介绍------CartPole(倒立摆) - 知乎

相关推荐
兴趣使然黄小黄21 小时前
【AI-agent】LangChain开发智能体工具流程
人工智能·microsoft·langchain
出门吃三碗饭21 小时前
Transformer前世今生——使用pytorch实现多头注意力(八)
人工智能·深度学习·transformer
l1t21 小时前
利用DeepSeek改写SQLite版本的二进制位数独求解SQL
数据库·人工智能·sql·sqlite
ζั͡山 ั͡有扶苏 ั͡✾21 小时前
从零搭建 Data-Juicer:一站式大模型数据预处理与可视化平台完整教程
python·data-juicer
说私域1 天前
开源AI智能名片链动2+1模式S2B2C商城小程序FAQ设计及其意义探究
人工智能·小程序
SkylerHu1 天前
tornado+gunicorn部署设置max_body_size
python·tornado·gunicorn
java_logo1 天前
SGLANG Docker容器化部署指南
linux·运维·docker·容器·eureka·1024程序员节
开利网络1 天前
合规底线:健康产品营销的红线与避坑指南
大数据·前端·人工智能·云计算·1024程序员节
非著名架构师1 天前
量化“天气风险”:金融与保险机构如何利用气候大数据实现精准定价与投资决策
大数据·人工智能·新能源风光提高精度·疾风气象大模型4.0
独行soc1 天前
2025年渗透测试面试题总结-234(题目+回答)
网络·python·安全·web安全·渗透测试·1024程序员节·安全狮