[PyTorch][chapter 58][强化学习-1]

前言:

RL(Reinfocement Learning) 强化学习 是机器学习,深度学习一个重点。

后面20章将重点结合一些例子回顾一下经典的强化学习算法。

这里重点介绍一下机器学习中的强化学习算法,以及Gym 工具

目录:

  1. 简介
  2. 强化学习基本要素
  3. 贪心算法
  4. softmax 算法
  5. Gym

一 简介

强化学习是智能体(Agent)以"试错"的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。


二 强化学习基本要素

|-------------|
| 强化学习五要素 |
| Agent |
| Environment |
| State |
| Action |
| Reward |

t 时刻 Agent 的状态

: t 时刻 Agent 根据当前的采取的action

: t时刻Agent 采取了action,状态更新到,得到的reward

策略: 在状态 下面,agent 选择a 的概率。

,通常用Qtable 来维护.

: Agent 在t时刻采取的动作 ,获得奖励 ,整个过程的贡献.

公式:

为greed算法即t时刻价值仅由t+1时刻收益决定

t时刻价值由随后每一步收益等比例决定。


贪心算法

这是机器学习里面一种经典的算法

参数说明:

: n次action 后的平均奖赏:

优化方案:通过每次通过单次奖赏与前边所有次的平均奖赏来计算本次动作后的平均奖赏

若每个动作奖赏的不确定性较大,如概率分布较宽时,则需更多的探索,此时需要较大的ϵ值

若每个动作奖赏的不确定性较小,如概率分布较集中时,则少量的尝试就能很好地近似真实奖赏,此时需要的ϵ较小通常令ϵ取一个较小的常数,如0.1或0.01

若尝试次数非常大,则在一段时间后,奖赏都能很好地近似出来,不再需要探索,这种情形下可让ϵ随着尝试次数的增加而逐渐减小,例如 ϵ=1∕√t


四: softmax

softmax算法是另一种对探索和利用进行这种的算法, 它基于Blotzmann分布:

公式16.4:

其中Q(i)为当前摇臂的平均奖励,
为温度:

其越小则平均奖励搞得摇臂被选取的概率越高,

趋于0时策略将趋于仅利用,

趋于无穷大时策略则将趋于仅探索.


五 Gym

是一个强化学习工具,里面包含很多游戏,用于验证强化学习算法

以一个乒乓球游戏为例:

复制代码
import gym

env = gym.make('Tennis-v4', render_mode="human")
#print("观测空间: ", env.observation_space)
print("动作空间       ", env.action_space)
print("动作空间s数      ", env.action_space.n)

state = env.reset()
#print("初始状态:", state)


for i in range(5000):
    action = env.action_space.sample()
    state, reward, done,  info = env.step(action)
    print('动作:', action, '当前状态:', state, '奖励:', reward, '是否结束:', done, '日志:', info)




print("\n ----end-----")
env.close()

函数介绍:

3.1 reset: 初始化

复制代码
'''
* @breif: 重置环境,回到初始状态
* @param[in]: seed	-> 随机种子
* @retval: 环境初始观测状态
'''
state = env.reset(seed=None)

3.2 make: 环境创建

复制代码
'''
* @breif: 生成环境对象
* @param[in]: id            ->  启用环境的名称
* @param[in]: render_mode   ->  渲染模式
* @retval: 环境对象
'''
env = gym.make(id:str, render_mode:str)

3.3 step

复制代码
'''
* @breif: 单步执行环境动力学过程
* @param[in]: 动作
* @retval: 四元组(当前状态, 奖励, 额外限制, 日志)
'''
state, reward, done,info = env.step(action)

3.4 close

复制代码
env.close()

上面我们通过不同的Algorithm,来更新Qtable,

当学习好了Qtable,

action=np.argmax: 我们可以根据当前的state,选择一个最优的action,

env.step(action): 根据action 来更新环境

env.render: 渲染当前的窗口

安装流程:aPytorch深度强化学习1-1:Gym安装与环境搭建教程(附基本指令表)_安装gym_Mr.Winter`的博客-CSDN博客

强化学习第一节(RL基本概念+工具+R算法)【个人知识分享】_哔哩哔哩_bilibili

第16节:强化学习RL_1.为何学习增强学习_[]_哔哩哔哩_bilibili

周志华《机器学习》"西瓜书"+"南瓜书" :第16章 强化学习

OpenAI Gym 经典控制环境介绍------CartPole(倒立摆) - 知乎

相关推荐
LiJieNiub9 分钟前
读懂目标检测:从基础概念到主流算法
人工智能·计算机视觉·目标跟踪
weixin_5195357738 分钟前
从ChatGPT到新质生产力:一份数据驱动的AI研究方向指南
人工智能·深度学习·机器学习·ai·chatgpt·数据分析·aigc
爱喝白开水a1 小时前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
takashi_void1 小时前
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程
linux·人工智能·windows·macos·语言模型·nlp
OpenCSG1 小时前
【活动预告】2025斗拱开发者大会,共探支付与AI未来
人工智能·ai·开源·大模型·支付安全
生命是有光的1 小时前
【深度学习】神经网络基础
人工智能·深度学习·神经网络
数字供应链安全产品选型1 小时前
国家级!悬镜安全入选两项“网络安全国家标准应用实践案例”
人工智能·安全·web安全
科技新知1 小时前
大厂AI各走“开源”路
人工智能·开源
字节数据平台1 小时前
火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
大数据·人工智能·火山引擎
TGITCIC1 小时前
LLaVA-OV:开源多模态的“可复现”革命,不只是又一个模型
人工智能·开源·多模态·ai大模型·开源大模型·视觉模型·大模型ai