强化学习计划

文章目录

强化学习

强化学习解决的是什么样的问题?

  • TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?

  • TODO

强化学习的损失函数(loss function)是什么?

  • TODO

写贝尔曼方程(Bellman Equation)

  • TODO

参考资料

最优值函数和最优策略为什么等价?

  • TODO

求解马尔科夫决策过程都有哪些方法?

  • TODO

简述蒙特卡罗估计值函数的算法。

  • TODO

简述时间差分算法

  • TODO

介绍Q-Learning

  • TODO

参考资料

DQN 算法

基本原理

参考资料

DQN的两个关键trick分别是什么?

  • TODO

DQN 都有哪些变种?DQN有哪些改进方向?

  • TODO

引入状态奖励的是哪种DQN?

  • TODO

  • Double -DQN

  • 优先经验回放

  • Dueling-DQN

Dueling DQN和DQN有什么区别?

  • TODO

介绍OpenAI用的PPO算法

  • TODO

介绍TRPO算法

  • TODO

为什么TRPO能保证新策略的回报函数单调不减?

  • TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定?

  • TODO

介绍A3C算法

  • TODO

参考资料

A3C中优势函数意义

  • TODO

强化学习如何用在推荐系统中?

  • TODO

参考资料

介绍Sarsa算法

  • TODO

参考资料

Sarsa 和 Q-Learning区别

  • TODO

参考资料

强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?

  • TODO

value-based方法学习的目标是什么?

  • TODO

强化学习 DQN,DDQN,AC,DDPG 的区别

  • TODO

参考资料

相关推荐
心疼你的一切6 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
chian-ocean6 小时前
量化加速实战:基于 `ops-transformer` 的 INT8 Transformer 推理
人工智能·深度学习·transformer
水月wwww7 小时前
【深度学习】卷积神经网络
人工智能·深度学习·cnn·卷积神经网络
杜子不疼.7 小时前
CANN_Transformer加速库ascend-transformer-boost的大模型推理性能优化实践
深度学习·性能优化·transformer
island13147 小时前
CANN HIXL 高性能单边通信库深度解析:PGAS 模型在异构显存上的地址映射与异步传输机制
人工智能·神经网络·架构
renhongxia17 小时前
如何基于知识图谱进行故障原因、事故原因推理,需要用到哪些算法
人工智能·深度学习·算法·机器学习·自然语言处理·transformer·知识图谱
深鱼~8 小时前
ops-transformer算子库:解锁昇腾大模型加速的关键
人工智能·深度学习·transformer·cann
禁默8 小时前
不仅是 FlashAttention:揭秘 CANN ops-transformer 如何重构大模型推理
深度学习·重构·aigc·transformer·cann
笔画人生8 小时前
进阶解读:`ops-transformer` 内部实现与性能调优实战
人工智能·深度学习·transformer
种时光的人8 小时前
CANN仓库核心解读:ascend-transformer-boost解锁AIGC大模型加速新范式
深度学习·aigc·transformer