深入理解强化学习——多臂赌博机:上下文相关的赌博机(关联搜索任务)

分类目录:《深入理解强化学习》总目录


《深入理解强化学习------多臂赌博机》系列文章到此为止,只考虑了非关联的任务,对它们来说,没有必要将不同的动作与不同的情境联系起来。在这些任务中,当任务是平稳的时候,学习器会试图寻找一个最佳的动作;当任务是非平稳的时候,最佳动作会随着时间的变化而改变,此时它会试着去追踪最佳动作。然而,在一般的强化学习任务中,往往有不止一种情境,它们的目标是学习一种策略:一个从特定情境到最优动作的映射。为了进行一般性问题分析,下面我们简要地探讨从非关联任务推广到关联任务的最简单的方法。

举个例子,假没有一系列不同的臂赌博机任务,每一步你都要随机地面对其中的一个。因此,赌博机任务在每一步都是随机变化的。从观察者的角度来看,这是一个单一的、非平稳的臂赌博机任务,其真正的动作价值是每步随机变化的。我们可以尝试使用本系列文章中描述的处理非平稳情况的方法,但是除非真正的动作价值的改变是非常缓慢的,否则这些方法不会有很好的效果。现在假设,当我们遇到某一个多臂赌博机任务时,我们会得到关于这个任务的编号的明显线索(但不是它的动作价值)。也许我们面对的是一个真正的老虎机,它的外观颜色与它的动作价值集合一一对应,动作价值集合改变的时候,外观颜色也会改变。那么,现在你可以学习一些任务相关的操作策略,例如,用你所看到的颜色作为信号,把每个任务和该任务下最优的动作直接关联起来,比如,如果为红色,则选择1号臂;如果为绿色,则选择2号臂。有了这种任务相关的策略,在知道任务编号信息时,你通常要比不知道任务编号信息时做得更好。

这是一个关联搜索任务的例子,因为它既涉及采用试错学习去搜索最优的动作,又将这些动作与它们表现最优时的情境关联在一起`:关联搜索任务现在通常在文献中被称为上下文相关的赌博机。关联搜索任务介于k臂赌博机问题和完整强化学习问题之间。它与完整强化学习问题的相似点是,它需要学习一种策略。但它又与臂赌博机问题相似,体现在每个动作只影响即时收益。如果允许动作可以影响下一时刻的情境和收益,那么这就是完整的强化学习问题。我们会在下一章中提出这个问题,并在本书的其他章节中研究它。

参考文献:

1\] 张伟楠, 沈键, 俞勇. 动手学强化学习\[M\]. 人民邮电出版社, 2022. \[2\] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)\[M\]. 电子工业出版社, 2019 \[3\] Maxim Lapan. 深度强化学习实践(原书第2版)\[M\]. 北京华章图文信息有限公司, 2021 \[4\] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 \[M\]. 人民邮电出版社, 2022

相关推荐
南湖北漠几秒前
听说拍照的人会拿相似的鱼皮豆代替野生鹌鹑蛋拍照(防原创)
网络·人工智能·计算机网络·生活
陆业聪3 分钟前
Windsurf 深度拆解:Codeium 如何用「Flow」重新定义 AI 编程体验
ide·人工智能·ai编程
AAI机器之心7 分钟前
这个RAG框架绝了:无论多少跳,LLM只调用两次,成本暴降
人工智能·python·ai·llm·agent·产品经理·rag
xixixi777779 分钟前
安全嵌入全链路:从模型训练到智能体交互,通信网络是AI安全的“地基”
人工智能·安全·ai·多模态·数据·通信·合规
递归尽头是星辰10 分钟前
Flink 四大基石:核心原理与实战速查
大数据·人工智能·flink·实时计算
1941s14 分钟前
OpenClaw 每日新玩法 | NanoClaw —— 轻量级、安全的 OpenClaw 替代方案
人工智能·安全·agent·openclaw
攻城狮7号23 分钟前
深度解析 GPT-5.4:从“聊天对话”到“原生全能数字员工”的技术演进
人工智能·openai·智能体·gpt-5.4
NAGNIP24 分钟前
一文搞懂CNN经典架构-AlexNet!
人工智能·算法
Agent产品评测局25 分钟前
企业 AI Agent 落地,如何保障数据安全与合规?——企业级智能体安全架构与合规路径深度盘点
人工智能·安全·ai·chatgpt·安全架构
Hello.Reader26 分钟前
深度学习 三次浪潮、三大驱动力与神经科学的恩怨(二)
人工智能·深度学习