技术栈
策略梯度
Nicolas893
2 个月前
大模型
·
llm
·
强化学习
·
策略梯度
·
dqn
·
rl
·
智能体
【大模型理论篇】强化学习RL与大模型智能体
大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
高颜值的殺生丸
6 个月前
强化学习
·
策略梯度
策略梯度玩 cartpole 游戏,强化学习代替PID算法控制平衡杆
cartpole游戏,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态,策略函数使用一个两层的简单神经网络,输入状态有4个,车位置,车速度,杆角度,杆速度,输出action为左移动或右移动,输入状态发现至少要给3个才能稳定一会儿,给2个完全学不明白,给4个能学到很稳定的policy
云端FFF
1 年前
a2c
·
reinforce
·
baseline
·
策略梯度
·
基线
RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】
本次实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题,agent 的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 200 帧,则游戏结束