技术栈
策略随机探索
汤姆和佩琦
9 小时前
学习
·
强化学习
·
策略随机探索
LLMs基础学习(八)强化学习专题(4)
强化学习算法可抽象为 “数据收集 → 学习优化” 闭环:核心矛盾:训练阶段,当前策略并非最优,需主动尝试 “非最优动作” 探索更优解 → 策略需具备随机探索能力 。