强化学习计划

文章目录

强化学习

强化学习解决的是什么样的问题?

  • TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?

  • TODO

强化学习的损失函数(loss function)是什么?

  • TODO

写贝尔曼方程(Bellman Equation)

  • TODO

参考资料

最优值函数和最优策略为什么等价?

  • TODO

求解马尔科夫决策过程都有哪些方法?

  • TODO

简述蒙特卡罗估计值函数的算法。

  • TODO

简述时间差分算法

  • TODO

介绍Q-Learning

  • TODO

参考资料

DQN 算法

基本原理

参考资料

DQN的两个关键trick分别是什么?

  • TODO

DQN 都有哪些变种?DQN有哪些改进方向?

  • TODO

引入状态奖励的是哪种DQN?

  • TODO

  • Double -DQN

  • 优先经验回放

  • Dueling-DQN

Dueling DQN和DQN有什么区别?

  • TODO

介绍OpenAI用的PPO算法

  • TODO

介绍TRPO算法

  • TODO

为什么TRPO能保证新策略的回报函数单调不减?

  • TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定?

  • TODO

介绍A3C算法

  • TODO

参考资料

A3C中优势函数意义

  • TODO

强化学习如何用在推荐系统中?

  • TODO

参考资料

介绍Sarsa算法

  • TODO

参考资料

Sarsa 和 Q-Learning区别

  • TODO

参考资料

强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?

  • TODO

value-based方法学习的目标是什么?

  • TODO

强化学习 DQN,DDQN,AC,DDPG 的区别

  • TODO

参考资料

相关推荐
ayiya_Oese32 分钟前
[训练和优化] 3. 模型优化
人工智能·python·深度学习·神经网络·机器学习
-一杯为品-42 分钟前
【深度学习】#11 优化算法
人工智能·深度学习·算法
攻城狮7号2 小时前
一文解析13大神经网络算法模型架构
人工智能·深度学习·神经网络·机器学习
羽凌寒2 小时前
动态范围调整(SEF算法实现)
人工智能·深度学习·计算机视觉
king of code porter3 小时前
深度学习之用CelebA_Spoof数据集搭建一个活体检测-训练好的模型用MNN来推理
人工智能·深度学习·mnn
正儿八经的数字经4 小时前
人工智能100问☞第24问:什么是生成对抗网络(GAN)?
人工智能·神经网络·生成对抗网络
你是一个铁憨憨9 小时前
使用深度学习预训练模型检测物体
人工智能·深度学习·arcgis·影像
AI算法工程师Moxi10 小时前
什么时候可以开始学习深度学习?
人工智能·深度学习·学习
好评笔记10 小时前
Meta的AIGC视频生成模型——Emu Video
人工智能·深度学习·机器学习·aigc·transformer·校招·面试八股
大神薯条老师12 小时前
Python零基础入门到高手8.4节: 元组与列表的区别
开发语言·爬虫·python·深度学习·机器学习·数据分析