rl

、达西先生15 天前
强化学习·端到端·rl
强化学习笔记6——异同策略、AC、等其他模型总结举例QLearning为什么是异策略? 生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。
、达西先生22 天前
算法·rl·sarsa·q-learning
强化学习笔记——4策略迭代、值迭代、TD算法首先梳理一下: 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题 求解上述两种贝尔曼方程有三种方法:DP(有模型),MC(无模型),TD(DP和MC结合) 这三种只是方法,既可以用于求值迭代也可以用于求解策略迭代
PinkGranite4 个月前
gpt·cot·tot·rl·gpt o1
OpenAI GPT-o1实现方案记录与梳理
Nicolas8936 个月前
大模型·llm·强化学习·策略梯度·dqn·rl·智能体
【大模型理论篇】强化学习RL与大模型智能体大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
白云千载尽10 个月前
rl·mpc
强化学习&MPC——(二)本篇主要介绍马尔科夫决策(MDP)过程,在介绍MDP之前,还需要对MP,MRP过程进行分析。马尔可夫性是指一个系统,在给定当前状态的情况下,未来的状态仅依赖于当前状态,而不依赖于过去的状态。换句话说,当前状态包含了过去所有状态的信息,因此未来的状态可以完全由当前状态决定。说白了就是带遗忘性质,下一个状态S_t+1仅与当前状态有关,而与之前的状态无关。 为什么需要马尔科夫性——简化环境模型。帮助强化学习来学习。 这种性质对于建模环境至关重要,因为它简化了问题的复杂性,并且使得我们能够用一个简洁的方式描述系统
天狼啸月19901 年前
强化学习·rl·robocup
强化学习RL实战 01:RoboCup Rescue simulatorofficial Readme:https://github.com/roborescue/rcrs-server/blob/master/README.adoc
喝凉白开都长肉的大胖子1 年前
强化学习·multi agent·rl
多智能体强化学习设计20231108多智能体强化学习适用于一系列问题,特别是那些涉及多个智能体相互作用的场景。以下是一些适合使用多智能体强化学习的问题示例: