强化学习----->轨迹、回报、折扣因子和回合

在上篇文章中,我们介绍了状态、动作、策略和奖励这几个基本概念。

本文将继续讨论强化学习中另外四个重要概念:轨迹回报折扣因子回合


轨迹(Trajectory)

轨迹描述了智能体与环境交互过程中经历的状态、动作和奖励序列,通常表示为:

复制代码
s0​,a0​,r1​,s1​,a1​,r2​,s2​,…

这是一个按时间顺序排列的"状态-动作-奖励"链。


回报(Return)

回报是指从某一时刻开始,轨迹上未来所有奖励的累积值,也称为累计奖励

例如,某轨迹获得的奖励依次为 0, 0, 0, 1,则其回报为 0+0+0+1=1。

回报常被用来评估策略的好坏。需要注意的是,策略本身通常是一个概率分布,而非确定性的动作选择。


折扣因子(Discount Factor)

在计算回报时,如果直接对远期奖励进行简单累加,可能导致回报无限增长,不利于学习稳定。为此,我们引入折扣因子 ​ γ∈(0,1),并定义折扣回报为:

复制代码
Gt​=rt+1​+γrt+2​+γ2rt+3​+…

例如,对应某轨迹的折扣回报可写作 0+0⋅γ+0⋅γ2+1⋅γ3+...。

折扣因子 γ的作用是调节智能体对近期奖励与远期奖励的重视程度:

  • 若 γ接近 0,智能体更关注近期奖励,策略会趋于"短视";

  • 若 γ接近 1,智能体更重视远期奖励,策略会更为"远视",甚至可能为长期收益接受短期的负奖励。


回合(Episode)

当智能体根据某个策略与环境交互,并在达到某个终止状态 时结束,这个过程称为一个回合 (或一次试验)。

如果环境或策略具有随机性,即使从同一初始状态出发,也可能得到不同的回合轨迹;反之,在完全确定性的环境中,每次从同一状态出发都将得到完全相同的回合。

相关推荐
五月君_2 分钟前
放弃 Python,Kimi 用 TS + Node.js 重写了一个 Kimi Code
开发语言·python·node.js
还是鼠鼠2 分钟前
AI掘金头条新闻系统 (Toutiao News)-获取用户信息
后端·python·mysql·fastapi·web
Luke Ewin5 分钟前
从零开始部署Fun-ASR-Nano实时语音识别并区分说话人教程 | 私有化部署开源的实时语音转写项目
人工智能·语音识别·funasr·实时语音识别·fun-asr
跨境技工小黎8 分钟前
Playwright vs Puppeteer :自动化脚本工具全面对比
人工智能
Hotchip_MEMS8 分钟前
韬τ定律的技术内核:逻辑折叠与信息路径重构
人工智能·物联网
AI服务老曹12 分钟前
解耦异构算力:基于 Docker 与 GB28181/RTSP 的边缘计算 AI 视频管理平台架构设计(支持源码交付)
人工智能·docker·边缘计算
captain_AIouo13 分钟前
深耕海外市场,autoAGC攻破品牌跨境内容运营难题
大数据·人工智能·经验分享·产品运营·aigc·内容运营
云天AI实战派17 分钟前
AI 智能体/API 故障排查指南:从调用失败到上线稳定的全流程修复手册
人工智能
Cloud_Shy61817 分钟前
解读《Effective Python 3rd Edition》:从练气到老魔
开发语言·python
SunnyDays101117 分钟前
Python 操作 Excel 超链接:添加网页、文件、工作表和图片链接
python·excel