rl

PinkGranite1 个月前
gpt·cot·tot·rl·gpt o1
OpenAI GPT-o1实现方案记录与梳理
Nicolas8933 个月前
大模型·llm·强化学习·策略梯度·dqn·rl·智能体
【大模型理论篇】强化学习RL与大模型智能体大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
白云千载尽7 个月前
rl·mpc
强化学习&MPC——(二)本篇主要介绍马尔科夫决策(MDP)过程,在介绍MDP之前,还需要对MP,MRP过程进行分析。马尔可夫性是指一个系统,在给定当前状态的情况下,未来的状态仅依赖于当前状态,而不依赖于过去的状态。换句话说,当前状态包含了过去所有状态的信息,因此未来的状态可以完全由当前状态决定。说白了就是带遗忘性质,下一个状态S_t+1仅与当前状态有关,而与之前的状态无关。 为什么需要马尔科夫性——简化环境模型。帮助强化学习来学习。 这种性质对于建模环境至关重要,因为它简化了问题的复杂性,并且使得我们能够用一个简洁的方式描述系统
天狼啸月199010 个月前
强化学习·rl·robocup
强化学习RL实战 01:RoboCup Rescue simulatorofficial Readme:https://github.com/roborescue/rcrs-server/blob/master/README.adoc
喝凉白开都长肉的大胖子1 年前
强化学习·multi agent·rl
多智能体强化学习设计20231108多智能体强化学习适用于一系列问题,特别是那些涉及多个智能体相互作用的场景。以下是一些适合使用多智能体强化学习的问题示例: