策略梯度

机器学习之策略梯度策略梯度（Policy Gradient）方法是强化学习中的一类重要算法，其核心思想是直接对策略参数进行优化，而不是通过值函数间接优化策略。与基于值的方法（如Q-Learning、DQN）不同，策略梯度方法可以直接处理连续动作空间，并且能够学习随机策略。

【强化学习】REINFORCE 算法目录一、引言二、REINFORCE 算法的核心定位与关键特性三、REINFORCE 算法的数学基础（通俗推导，贴合代码）

理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现多智能体强化学习（MARL）将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争，或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。

【大模型理论篇】强化学习RL与大模型智能体大模型商业化，解决某类实际的业务问题，仅靠大模型本身其实存在很大的局限性，很多场景下不足以完全胜任真实业务需求【1】。

高颜值的殺生丸

策略梯度玩 cartpole 游戏，强化学习代替PID算法控制平衡杆cartpole游戏，车上顶着一个自由摆动的杆子，实现杆子的平衡，杆子每次倒向一端车就开始移动让杆子保持动态直立的状态，策略函数使用一个两层的简单神经网络，输入状态有4个，车位置，车速度，杆角度，杆速度，输出action为左移动或右移动，输入状态发现至少要给3个才能稳定一会儿，给2个完全学不明白，给4个能学到很稳定的policy

RL 实践（6）—— CartPole【REINFORCE with baseline & A2C】本次实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题，agent 的任务是通过左右移动保持车上的杆竖直，若杆的倾斜度数过大，或者车子离初始位置左右的偏离程度过大，或者坚持时间到达 200 帧，则游戏结束

我是有底线的