技术栈

q-learning

有梦想的攻城狮
9 天前
强化学习·q-learning
Q-Learning详解:从理论到实践的全面解析Q-Learning是一种无模型(Model-Free)的强化学习算法,属于**基于值迭代(Value Iteration)的方法。其核心目标是通过构建Q表(状态-动作值函数表)来存储环境认知,并指导智能体在每个状态下选择最优动作。Q-Learning采用时间差分(TD)**方法,融合了蒙特卡洛的样本效率和动态规划的数学严谨性,适用于未知环境的决策优化问题。
、达西先生
7 个月前
算法·rl·sarsa·q-learning
强化学习笔记——4策略迭代、值迭代、TD算法首先梳理一下: 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题 求解上述两种贝尔曼方程有三种方法:DP(有模型),MC(无模型),TD(DP和MC结合) 这三种只是方法,既可以用于求值迭代也可以用于求解策略迭代