强化学习(SQL)

SQL------soft Q-learning

这是一种在最大化期望累计奖励的基础上,最大化熵项的算法,即该算法的优化目标是累计奖励和熵(entropy)的和

SQL的好处:

①探索性强:可以在多模态任务中找到最佳的方案,多模态是指agents需要去规划多个目标

②更鲁棒性:目标中加入熵会让agent学习到所有动作,当环境中加入干扰噪声,呢么之前规划好的动作可能就不能用了,那么此时就可以用其余动作

③组合性更强:通过最大熵,policy学习到所有解决任务的方法,这样的policy就更有利于学习新的任务

SQL的输出是一个玻尔兹曼分布,包括了每个动作的可能性,当然不同动作采样概率有高有低,概率大容易被采到并输出,概率小的较难被输出。

举例说明SQL的抗干扰性:假设已经找到了最佳的路径,但是突然出现干扰,如果是Q-learning这种输出靠着最大Q对应的动作,那么agent就会一直在干扰处徘徊,但是SQL就会不一样,对于所有动作都会被选择到,只不过概率有高低罢了,那么当遇到干扰时,agent就有机会找到另一条合适的路径。

含熵优化目标:

增加信息熵项,那么优化时,就会使得输出的每一个动作的概率尽量分散,因为在一个集合中,体系越混乱,种类越趋于平均,熵值越大。

伪代码:

初始化分布参数:

更新目标参数:

空的回访缓存区D

for each epoch do

for each t do

通过获取状态对应的动作:,其中

与环境交互获得下一时刻的状态:

将经验数据存入回放缓存区D

从回放缓存区中抽取小样本数据

更新值函数网络:计算状态对应的action及value,计算梯度并且更新参数

更新采集网络:计算状态对应的和采集到的action,更新网络参数

end for

达到目标参数更新频次:

end for

注意:

1、有两个网络:采集网络&值函数网络,与AC算法的actor网络&critic网络形式相似

2、两大优化算法:SVGD&ADAM,采集网络:SVGD优化KL散度然后Adam更新参数;值函数网络:Adam优化MSE以及更新参数

相关推荐
V1ncent Chen3 分钟前
机器是如何“洞察“世界的?:深度学习
人工智能·深度学习
三途河畔人14 分钟前
Pytho基础语法_运算符
开发语言·python·入门
rit84324991 小时前
基于MATLAB的BP神经网络手写数字识别
开发语言·神经网络·matlab
独行soc2 小时前
2025年渗透测试面试题总结-275(题目+回答)
网络·python·安全·web安全·网络安全·渗透测试·安全狮
java1234_小锋2 小时前
Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 掩码机制(Masked)原理介绍以及算法实现
深度学习·语言模型·transformer
番石榴AI3 小时前
java版的ocr推荐引擎——JiaJiaOCR 2.0重磅升级!纯Java CPU推理,新增手写OCR与表格识别
java·python·ocr
时光轻浅,半夏挽歌3 小时前
python不同格式文件的读写方式(json等)
python·json
测试人社区-千羽4 小时前
边缘计算场景下的智能测试挑战
人工智能·python·安全·开源·智能合约·边缘计算·分布式账本
抽象带篮子4 小时前
Pytorch Lightning 框架运行顺序
人工智能·pytorch·python
哇哈哈&4 小时前
安装wxWidgets3.2.0(编译高版本erlang的时候用,不如用rpm包),而且还需要高版本的gcc++19以上,已基本舍弃
linux·数据库·python