策略随机探索 - 策略随机探索技术,学习,经验文章

汤姆和佩琦

1 年前

LLMs基础学习（八）强化学习专题（4）强化学习算法可抽象为 “数据收集 → 学习优化” 闭环：核心矛盾：训练阶段，当前策略并非最优，需主动尝试 “非最优动作” 探索更优解 → 策略需具备随机探索能力。