强化学习·导论

任务类型:单元式和持续型任务

  • 分为单元式(Episodic)和持续型任务
  • 单元式任务存在一个开始和结束状态
  • 持续型任务没有结束状态。

探索和利用

  • 探索是通过尝试随机行动来探索环境,以获取更多关于环境的信息。
  • 利用是利用已知信息以最大化回报。

解决强化学习的两类方法

基于策略的方法

  • 直接学习一个最佳的策略,然后根据策略指导行动,间接的让智能体选择有价值的状态
  • 这个策略可能是确定性的(返回一个确定的动作),可能是随机的(返回一个动作函数的概率分布)。


基于价值的方法

  • 在基于价值的方法中,我们不是学习策略函数,而是学习一个价值函数,将状态映射到处于该状态的期望值。

  • 状态的价值是代理人在该状态开始并按照我们的策略行动时,能获得的预期贴现回报。

  • "按照我们的政策行事"只是意味着我们的政策"归属于价值最高的国家"。

深度强化学习中"深度"的含义

相关推荐
解局易否结局14 小时前
昇腾CANN上的FlashAttention工程实战:ops-transformer源码拆解
深度学习
Honey Ro14 小时前
浅析大模型 Agent 的记忆(Memory)机制
深度学习·语言模型·llm·rag
咋吃都不胖lyh15 小时前
Prompt Engineering(提示工程)和 CoT(Chain of Thought,思维链)
人工智能·深度学习·机器学习
放下华子我只抽RuiKe515 小时前
React 从入门到生产(五):状态管理选型
前端·javascript·人工智能·深度学习·react.js·前端框架·ecmascript
啦啦啦_999915 小时前
6. 网络优化方法之 学习率 优化/衰减策略
深度学习
Mem0rin15 小时前
[LLM初步] Transformer 架构综述
人工智能·深度学习·transformer
解局易否结局15 小时前
用 Profiler 追踪 ops-transformer 算子:GE 融合与 Runtime 调度的实战调试
人工智能·深度学习·transformer
05大叔15 小时前
预训练模型演化,提示词工程
人工智能·深度学习·自然语言处理
PNP Robotics15 小时前
PNP机器人亮相南京学术论坛,分享具身智能多模态数据采集前沿成果
人工智能·深度学习·学习·机器学习·virtualenv
名字不好奇16 小时前
大模型如何训练?猜词游戏如何炼成智能大脑
深度学习·游戏·机器学习