【机器学习】强化学习（一）强化学习简介

十年一梦实验室2024-01-20 15:46

一、强化学习简介

1.1 问题定义

1.2 马尔可夫决策过程

例1：

例2：

执行动作的策略

强化学习的目标是让智能体通过不断尝试，找到最优的策略（policy），即在每个状态下选择什么动作，以最大化累积的奖励。强化学习的常见算法有：

Q学习（Q-learning）：一种基于值函数（value function）的方法，它用一个表格（Q-table）记录每个状态-动作对的期望奖励（Q-value），并根据贪心或探索-利用的原则更新表格。
策略梯度（policy gradient）：一种基于策略函数（policy function）的方法，它用一个参数化的函数（如神经网络）表示策略，并根据奖励的梯度方向更新参数。
深度强化学习（deep reinforcement learning）：一种结合深度学习和强化学习的方法，它用深度神经网络来近似值函数或策略函数，如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略？

强化学习在制造业中的应用

参考网址：

【机器学习】强化学习 （一）强化学习简介