强化学习计划

文章目录

强化学习

强化学习解决的是什么样的问题?

  • TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?

  • TODO

强化学习的损失函数(loss function)是什么?

  • TODO

写贝尔曼方程(Bellman Equation)

  • TODO

参考资料

最优值函数和最优策略为什么等价?

  • TODO

求解马尔科夫决策过程都有哪些方法?

  • TODO

简述蒙特卡罗估计值函数的算法。

  • TODO

简述时间差分算法

  • TODO

介绍Q-Learning

  • TODO

参考资料

DQN 算法

基本原理

参考资料

DQN的两个关键trick分别是什么?

  • TODO

DQN 都有哪些变种?DQN有哪些改进方向?

  • TODO

引入状态奖励的是哪种DQN?

  • TODO

  • Double -DQN

  • 优先经验回放

  • Dueling-DQN

Dueling DQN和DQN有什么区别?

  • TODO

介绍OpenAI用的PPO算法

  • TODO

介绍TRPO算法

  • TODO

为什么TRPO能保证新策略的回报函数单调不减?

  • TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定?

  • TODO

介绍A3C算法

  • TODO

参考资料

A3C中优势函数意义

  • TODO

强化学习如何用在推荐系统中?

  • TODO

参考资料

介绍Sarsa算法

  • TODO

参考资料

Sarsa 和 Q-Learning区别

  • TODO

参考资料

强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?

  • TODO

value-based方法学习的目标是什么?

  • TODO

强化学习 DQN,DDQN,AC,DDPG 的区别

  • TODO

参考资料

相关推荐
机器学习之心18 分钟前
BO-CNN-BiLSTM贝叶斯优化卷积双向长短期记忆神经网络多输入多输出预测,MATLAB代码
神经网络·matlab·cnn·bo-cnn-bilstm
DatGuy19 分钟前
Week 31: 深度学习补遗:Mamba
人工智能·深度学习
万俟淋曦29 分钟前
【论文速递】2025年第43周(Oct-19-25)(Robotics/Embodied AI/LLM)
人工智能·深度学习·机器学习·机器人·论文·具身智能·robotic
晨光32111 小时前
Day42 图像数据与显存
深度学习
AI即插即用1 小时前
即插即用系列 | CVPR 2025 FDConv:频域动态卷积,打破密集预测任务的参数效率瓶颈
图像处理·人工智能·深度学习·神经网络·计算机视觉·cnn·视觉检测
机器学习之心1 小时前
科研绘图 | TCN-LSTM时间卷积神经网络结合长短期记忆神经网络模型结构图
神经网络·tcn-lstm
code 旭1 小时前
神经网络+激活函数+损失函数 三合一速查表
人工智能·深度学习·神经网络
CoovallyAIHub1 小时前
摄像头如何“看懂”你的手势?手势识别实现新人机交互
深度学习·算法·计算机视觉
AI浩2 小时前
深度任意全景:用于全景深度估计的基础模型
人工智能·深度学习·目标跟踪
CoovallyAIHub2 小时前
颠覆认知!遥感船舶检测“越深越好”是误区?LiM-YOLO证明“少即是多”
深度学习·算法·计算机视觉