强化学习代码实战(2) --- 多臂赌博机

目录

前言

1.Python基础

2.Numpy基础

3.多臂赌博机

参考文献


前言

本文内容来自于南京大学郭宪老师在博文视点学院录制的视频,课程仅9元地址,配套书籍为深入浅出强化学习 编程实战 郭宪地址

1.Python基础

  1. print()

可以用该语句查看当前数据的情况,验证数据过程是否正确,也就是验证代码写的是否正确。

  1. if...else...
  1. for循环

  2. while循环

  1. 函数定义

数据成员

函数成员

子类初始化时要用super()(本质上还是对基类进行初始化)

2.Numpy基础

3.多臂赌博机

多臂赌博机希望可以得到摇动N次后得到到最高的回报,对于该赌博机,有回报模型(摇一次出多少币是确定的),但没有状态转移模型,所以是一个无模型问题。

以下图为例,在多臂赌博机中,动作a=[0,1,2]分别代表对三个摇臂的动作,而每个摇臂对应不同回报,所以服从三个回报,状态s,在本例中较为简单,对某一个摇臂动作,然后返回初始状态,再继续对某一个摇臂动作,再返回初始状态......,循环往复。本例中的评估,基于行为值函数,本质上是对当前动作回报值的计算(期望,也就是摇N次对回报取平均值)。我们需要分别得到三个摇臂的q(q(a1),q(a2),q(a3))。

进而我们看一下实现的过程,假设q[0],q[1],q[2]的期望(未知)分别是1,10,6(满足正态分布),初始化时我们对每一个摇臂进行一次实验,分别得到3,4,6个金币,根据贪婪策略(选回报最大动作,也就是摇臂3),连续执行十次,按照期望(正态分布)得到60金币,但如果选择摇臂2,十次后可得到100金币,所以这时贪婪策略就不太合适。所以出现了探索-利用平衡策略,利用就是用当前最好策略,探索就是有一定概率选择其他不那么好的动作。

再看一下伪码和源码的对应关系。

代码中可修改的内容。

用到的三种策略

:简单理解,以摇臂赌博机为例,第一次探索q[0]=0.2,q[1]=0.3,q[2]=0.6,=0.1,此时有0.9的概率继续选择2的动作,有0.1的概率选择1的动作,这就增加的探索能力,假设选择了动作1,立即汇报为1.5,那么q[1]=0.9,成为最高的回报值,下次有0.9被选择的概率。(比较彼此回报时用的是平均回报)

ucb:分别计算不同动作的累计回报,假设谁大选谁,代表各自动作的平均回报值,假设动作3的平均回报是0.6为最大,但连续选择3次之后,第四次n(动作总次数)变为4,为动作1,2,3各自的次数,那么此时对动作1,2而言较小,n大,所以对应的值会超过动作3,以此实现探索。

bolzman:简单理解是利用概率方式,优先选回报最多的动作,但对回报低的动作也有概率选择。

参考文献

1.深入浅出强化学习 编程实战 郭宪

  1. 博文视点学院
相关推荐
FFDUST11 小时前
C++ 优先算法 —— 四数之和(双指针)
c语言·开发语言·c++·算法·leetcode·1024程序员节
惜.己12 小时前
Jmeter中的配置原件(三)
功能测试·测试工具·jmeter·1024程序员节
惜.己12 小时前
Jmeter中的配置原件(二)
测试工具·jmeter·1024程序员节
惜.己16 小时前
Jmeter中的配置原件(五)
功能测试·测试工具·jmeter·github·1024程序员节
xybm160518 小时前
MTSET可溶于DMSO、DMF、THF等有机溶剂,并在水中有轻微的溶解性,91774-25-3
java·spring·eclipse·tomcat·1024程序员节
dream_ready18 小时前
四万字长文SpringBoot、Spring、SpringMVC等相关面试题(注:该篇博客将会持续维护 最新维护时间:2024年11月12日)
java·spring boot·后端·spring·面试·1024程序员节
paixiaoxin19 小时前
学术界的秘密武器:Zotero7大插件推荐
论文阅读·经验分享·笔记·云计算·学习方法·zotero·1024程序员节
V+zmm1013419 小时前
校园服务平台小程序ssm+论文源码调试讲解
java·小程序·毕业设计·mvc·课程设计·1024程序员节
love_and_hope1 天前
Pytorch学习--神经网络--完整的模型验证套路
人工智能·pytorch·python·神经网络·学习·1024程序员节
阿巴~阿巴~1 天前
C_数据结构(单链表算法题) —— 相交链表、环形链表I、环形链表II、随机链表的复制
c语言·开发语言·数据结构·算法·链表·1024程序员节