强化学习计划

蟕初的梦想2023-12-31 23:36

文章目录

强化学习
- 强化学习解决的是什么样的问题？
- 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？
- [强化学习的损失函数（loss function）是什么？](#强化学习的损失函数（loss function）是什么？)
- [写贝尔曼方程（Bellman Equation）](#写贝尔曼方程（Bellman Equation）)
- 最优值函数和最优策略为什么等价？
- 求解马尔科夫决策过程都有哪些方法？
- 简述蒙特卡罗估计值函数的算法。
- 简述时间差分算法
- 介绍Q-Learning
- [DQN 算法](#DQN 算法)
- - 基本原理
  - DQN的两个关键trick分别是什么？
  - [DQN 都有哪些变种？DQN有哪些改进方向？](#DQN 都有哪些变种？DQN有哪些改进方向？)
  - 引入状态奖励的是哪种DQN？
  - [Dueling DQN和DQN有什么区别？](#Dueling DQN和DQN有什么区别？)
- 介绍OpenAI用的PPO算法
- 介绍TRPO算法
- 为什么TRPO能保证新策略的回报函数单调不减？
- 介绍DDPG算法
- 画出DDPG框架
- [DDPG中的第二个D 为什么要确定？](#DDPG中的第二个D 为什么要确定？)
- 介绍A3C算法
- A3C中优势函数意义
- 强化学习如何用在推荐系统中？
- 介绍Sarsa算法
- [Sarsa 和 Q-Learning区别](#Sarsa 和 Q-Learning区别)
- [强化学习中有value-based 和 policy-based，这两种的优缺点分别是什么？应用场景分别是什么？](#强化学习中有value-based 和 policy-based，这两种的优缺点分别是什么？应用场景分别是什么？)
- value-based方法学习的目标是什么？
- [强化学习 DQN，DDQN，AC，DDPG 的区别](#强化学习 DQN，DDQN，AC，DDPG 的区别)
- 参考资料

强化学习

强化学习解决的是什么样的问题？

TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？

TODO

强化学习的损失函数（loss function）是什么？

TODO

写贝尔曼方程（Bellman Equation）

TODO

参考资料

贝尔曼方程

最优值函数和最优策略为什么等价？

TODO

求解马尔科夫决策过程都有哪些方法？

TODO

简述蒙特卡罗估计值函数的算法。

TODO

简述时间差分算法

TODO

介绍Q-Learning

TODO

参考资料

Q-Learning
Q-learning算法
【强化学习】Q-Learning算法详解
通过 Q-learning 深入理解强化学习

DQN 算法

基本原理

参考资料

【强化学习】Deep Q Network(DQN)算法详解
强化学习---DQN算法原理详解

DQN的两个关键trick分别是什么？

TODO

DQN 都有哪些变种？DQN有哪些改进方向？

TODO

引入状态奖励的是哪种DQN？

TODO
Double -DQN
优先经验回放
Dueling-DQN

Dueling DQN和DQN有什么区别？

TODO

介绍OpenAI用的PPO算法

TODO

介绍TRPO算法

TODO

为什么TRPO能保证新策略的回报函数单调不减？

TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定？

TODO

介绍A3C算法

TODO

参考资料

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
深度强化学习------A3C

A3C中优势函数意义

TODO

强化学习如何用在推荐系统中？

TODO

参考资料

用强化学习研究推荐系统的前景和难度怎么样？
深度强化学习如何和推荐系统结合起来？
ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型
最新！五大顶会2019必读的深度推荐系统与CTR预估相关的论文

介绍Sarsa算法

TODO

参考资料

AI学习笔记------Sarsa算法

Sarsa 和 Q-Learning区别

TODO

参考资料

强化学习(五)：Sarsa算法与Q-Learning算法
强化学习中的Q-learning算法和Sarsa算法的区别
Bourne强化学习笔记2：彻底搞清楚什么是Q-learning与Sarsa

强化学习中有value-based 和 policy-based，这两种的优缺点分别是什么？应用场景分别是什么？

TODO

value-based方法学习的目标是什么？

TODO

强化学习 DQN，DDQN，AC，DDPG 的区别

TODO

参考资料

再励学习面试真题
强化学习面经

上一篇：从零开始的 dbt 入门教程（dbt core 命令进阶篇）

下一篇：机器视觉相关硬件

相关推荐

ZYNQ实现FFT信号处理项目

人工智能·经验分享·神经网络·机器学习·fpga开发·信号处理

Python图像识别

03-基于深度学习的钢铁缺陷检测-yolo11-彩色版界面

人工智能·深度学习

PyTorch 张量核心操作——比较、排序与数据校验

人工智能·pytorch·python·深度学习·机器学习

深度学习·Zegclip&Clip-RC

人工智能·深度学习

人工智能——深度学习——认识Tensor

人工智能·深度学习

动手学习深度学习-相关数学知识

python·深度学习·机器学习·矩阵·numpy·反向传播·计算图

深度学习·VPT

人工智能·深度学习

The moon forgets

Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

人工智能·pytorch·深度学习·目标检测·3d

MATLAB深度学习之数据集-数据库构建方法详解

深度学习·matlab

【多模态微调】【从0开始】Qwen2-VL + llamafactory

人工智能·python·深度学习·机器学习·语言模型

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03UV安装并设置国内源 04ChatGPT 5发布日期揭秘：2025年8月上线，多模态推理能力全面升级 05KGG转MP3工具|非KGM文件|解密音频 06如何在 Cursor 中继续使用 Claude 07腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）08Cursor 终端“卡死/无响应”问题的解法 09Claude Code 效率实战指南：从入门到精通的实用技巧（附安装教程）10OpenAI重返开源！GPT-OSS本地部署完全指南