强化学习计划

文章目录

强化学习

强化学习解决的是什么样的问题?

  • TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?

  • TODO

强化学习的损失函数(loss function)是什么?

  • TODO

写贝尔曼方程(Bellman Equation)

  • TODO

参考资料

最优值函数和最优策略为什么等价?

  • TODO

求解马尔科夫决策过程都有哪些方法?

  • TODO

简述蒙特卡罗估计值函数的算法。

  • TODO

简述时间差分算法

  • TODO

介绍Q-Learning

  • TODO

参考资料

DQN 算法

基本原理

参考资料

DQN的两个关键trick分别是什么?

  • TODO

DQN 都有哪些变种?DQN有哪些改进方向?

  • TODO

引入状态奖励的是哪种DQN?

  • TODO

  • Double -DQN

  • 优先经验回放

  • Dueling-DQN

Dueling DQN和DQN有什么区别?

  • TODO

介绍OpenAI用的PPO算法

  • TODO

介绍TRPO算法

  • TODO

为什么TRPO能保证新策略的回报函数单调不减?

  • TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定?

  • TODO

介绍A3C算法

  • TODO

参考资料

A3C中优势函数意义

  • TODO

强化学习如何用在推荐系统中?

  • TODO

参考资料

介绍Sarsa算法

  • TODO

参考资料

Sarsa 和 Q-Learning区别

  • TODO

参考资料

强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?

  • TODO

value-based方法学习的目标是什么?

  • TODO

强化学习 DQN,DDQN,AC,DDPG 的区别

  • TODO

参考资料

相关推荐
生信碱移34 分钟前
大语言模型时代,单细胞注释也需要集思广益(mLLMCelltype)
人工智能·经验分享·深度学习·语言模型·自然语言处理·数据挖掘·数据可视化
硅谷秋水1 小时前
通过模仿学习实现机器人灵巧操作:综述(上)
人工智能·深度学习·机器学习·计算机视觉·语言模型·机器人
开心快乐幸福一家人1 小时前
Spark-SQL与Hive集成及数据分析实践
人工智能·pytorch·深度学习
小宋加油啊2 小时前
深度学习小记(包括pytorch 还有一些神经网络架构)
pytorch·深度学习·神经网络
沛沛老爹2 小时前
从线性到非线性:简单聊聊神经网络的常见三大激活函数
人工智能·深度学习·神经网络·激活函数·relu·sigmoid·tanh
何大春3 小时前
【视频时刻检索】Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读
论文阅读·深度学习·神经网络·计算机视觉·视觉检测·论文笔记
旧故新长3 小时前
支持Function Call的本地ollama模型对比评测-》开发代理agent
人工智能·深度学习·机器学习
微学AI4 小时前
融合注意力机制和BiGRU的电力领域发电量预测项目研究,并给出相关代码
人工智能·深度学习·自然语言处理·注意力机制·bigru
知来者逆4 小时前
计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解
图像处理·人工智能·深度学习·算法·目标检测·计算机视觉·rf-detr
每天都要写算法(努力版)5 小时前
【神经网络与深度学习】训练集与验证集的功能解析与差异探究
人工智能·深度学习·神经网络