强化学习·导论

任务类型:单元式和持续型任务

  • 分为单元式(Episodic)和持续型任务
  • 单元式任务存在一个开始和结束状态
  • 持续型任务没有结束状态。

探索和利用

  • 探索是通过尝试随机行动来探索环境,以获取更多关于环境的信息。
  • 利用是利用已知信息以最大化回报。

解决强化学习的两类方法

基于策略的方法

  • 直接学习一个最佳的策略,然后根据策略指导行动,间接的让智能体选择有价值的状态
  • 这个策略可能是确定性的(返回一个确定的动作),可能是随机的(返回一个动作函数的概率分布)。


基于价值的方法

  • 在基于价值的方法中,我们不是学习策略函数,而是学习一个价值函数,将状态映射到处于该状态的期望值。

  • 状态的价值是代理人在该状态开始并按照我们的策略行动时,能获得的预期贴现回报。

  • "按照我们的政策行事"只是意味着我们的政策"归属于价值最高的国家"。

深度强化学习中"深度"的含义

相关推荐
zhangfeng11331 天前
国家超算中心 命令行是否会消耗算力卡,找不到显卡,是否需要退出
人工智能·深度学习
renhongxia11 天前
PostTrainBench:LLM 代理能否自动化 LLM 后培训?
运维·人工智能·深度学习·机器学习·架构·自动化·transformer
吴佳浩1 天前
Kimi 注意力残差(Attention Residuals)技术深度解读
人工智能·深度学习·llm
向哆哆1 天前
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)适用于YOLO系列深度学习检测任务
人工智能·深度学习·yolo
Learn Beyond Limits1 天前
循环神经网络的问题:梯度消失与梯度爆炸|Problems with RNNs: Vanishing and Exploding Gradients
人工智能·rnn·深度学习·神经网络·机器学习·自然语言处理·nlp
龙腾AI白云1 天前
数字孪生底层逻辑和技术
深度学习·django·flask·fastapi·tornado
Alsian1 天前
Day45 神经网络调参
深度学习·神经网络·机器学习
Yeats_Liao2 天前
OpenClaw(二):配置教程
大数据·网络·人工智能·深度学习·机器学习
忧郁的橙子.2 天前
03-Hugging Face 模型微调训练(基于 BERT 的中文评价情感分析)
人工智能·深度学习·bert
我认不到你2 天前
使用Ollama运行本地模型,模型参数选择(保姆级图文讲解)
人工智能·深度学习·ai·语言模型