文章目录
- 强化学习
-
- 强化学习解决的是什么样的问题?
- 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?
- [强化学习的损失函数(loss function)是什么?](#强化学习的损失函数(loss function)是什么?)
- [写贝尔曼方程(Bellman Equation)](#写贝尔曼方程(Bellman Equation))
- 最优值函数和最优策略为什么等价?
- 求解马尔科夫决策过程都有哪些方法?
- 简述蒙特卡罗估计值函数的算法。
- 简述时间差分算法
- 介绍Q-Learning
- [DQN 算法](#DQN 算法)
-
- 基本原理
- DQN的两个关键trick分别是什么?
- [DQN 都有哪些变种?DQN有哪些改进方向?](#DQN 都有哪些变种?DQN有哪些改进方向?)
- 引入状态奖励的是哪种DQN?
- [Dueling DQN和DQN有什么区别?](#Dueling DQN和DQN有什么区别?)
- 介绍OpenAI用的PPO算法
- 介绍TRPO算法
- 为什么TRPO能保证新策略的回报函数单调不减?
- 介绍DDPG算法
- 画出DDPG框架
- [DDPG中的第二个D 为什么要确定?](#DDPG中的第二个D 为什么要确定?)
- 介绍A3C算法
- A3C中优势函数意义
- 强化学习如何用在推荐系统中?
- 介绍Sarsa算法
- [Sarsa 和 Q-Learning区别](#Sarsa 和 Q-Learning区别)
- [强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?](#强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?)
- value-based方法学习的目标是什么?
- [强化学习 DQN,DDQN,AC,DDPG 的区别](#强化学习 DQN,DDQN,AC,DDPG 的区别)
- 参考资料
强化学习
强化学习解决的是什么样的问题?
- TODO
举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?
- TODO
强化学习的损失函数(loss function)是什么?
- TODO
写贝尔曼方程(Bellman Equation)
- TODO
参考资料
最优值函数和最优策略为什么等价?
- TODO
求解马尔科夫决策过程都有哪些方法?
- TODO
简述蒙特卡罗估计值函数的算法。
- TODO
简述时间差分算法
- TODO
介绍Q-Learning
- TODO
参考资料
DQN 算法
基本原理
参考资料
DQN的两个关键trick分别是什么?
- TODO
DQN 都有哪些变种?DQN有哪些改进方向?
- TODO
引入状态奖励的是哪种DQN?
-
TODO
-
Double -DQN
-
优先经验回放
-
Dueling-DQN
Dueling DQN和DQN有什么区别?
- TODO
介绍OpenAI用的PPO算法
- TODO
介绍TRPO算法
- TODO
为什么TRPO能保证新策略的回报函数单调不减?
- TODO
介绍DDPG算法
画出DDPG框架
DDPG中的第二个D 为什么要确定?
- TODO
介绍A3C算法
- TODO
参考资料
A3C中优势函数意义
- TODO
强化学习如何用在推荐系统中?
- TODO
参考资料
- 用强化学习研究推荐系统的前景和难度怎么样?
- 深度强化学习如何和推荐系统结合起来?
- ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
- 最新!五大顶会2019必读的深度推荐系统与CTR预估相关的论文
介绍Sarsa算法
- TODO
参考资料
Sarsa 和 Q-Learning区别
- TODO
参考资料
强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?
- TODO
value-based方法学习的目标是什么?
- TODO
强化学习 DQN,DDQN,AC,DDPG 的区别
- TODO