强化学习·导论

任务类型:单元式和持续型任务

  • 分为单元式(Episodic)和持续型任务
  • 单元式任务存在一个开始和结束状态
  • 持续型任务没有结束状态。

探索和利用

  • 探索是通过尝试随机行动来探索环境,以获取更多关于环境的信息。
  • 利用是利用已知信息以最大化回报。

解决强化学习的两类方法

基于策略的方法

  • 直接学习一个最佳的策略,然后根据策略指导行动,间接的让智能体选择有价值的状态
  • 这个策略可能是确定性的(返回一个确定的动作),可能是随机的(返回一个动作函数的概率分布)。


基于价值的方法

  • 在基于价值的方法中,我们不是学习策略函数,而是学习一个价值函数,将状态映射到处于该状态的期望值。

  • 状态的价值是代理人在该状态开始并按照我们的策略行动时,能获得的预期贴现回报。

  • "按照我们的政策行事"只是意味着我们的政策"归属于价值最高的国家"。

深度强化学习中"深度"的含义

相关推荐
机 _ 长4 小时前
Transformer架构深度解析:从翻译模型到大语言模型的核心技术
人工智能·深度学习
宝贝儿好5 小时前
【强化学习】第十章:连续动作空间强化学习:随机高斯策略、DPG算法
人工智能·python·深度学习·算法·机器人
Evand J5 小时前
【课题推荐】深度学习驱动的交通流量预测系统(基于LSTM的交通流量预测系统),MATLAB实现
人工智能·深度学习·matlab·课题简介
Project_Observer6 小时前
工时日志在项目进度管理中扮演着怎样的角色?
数据库·深度学习·机器学习
海天一色y6 小时前
粒子群算法(PSO)优化BP神经网络:从原理到实战
人工智能·深度学习·神经网络
Dev7z6 小时前
基于深度学习的违章停车检测系统的设计与实现
人工智能·深度学习·违章停车·人行道违停·禁停区违停·双排停车·斑马线违停
儒雅芝士6 小时前
RethinkFun深度学习笔记
人工智能·笔记·深度学习
kebijuelun7 小时前
Learning Personalized Agents from Human Feedback:用人类反馈训练可持续个性化智能体
人工智能·深度学习·算法·transformer
盼小辉丶7 小时前
PyTorch实战(30)——使用TorchScript和ONNX导出通用PyTorch模型
人工智能·pytorch·深度学习·模型部署