rl

木亦汐丫1 个月前
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构
老A的AI实验室1 个月前
人工智能·深度学习·算法·chatgpt·llm·agi·rl
通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law通俗解释:就像建房子时,地基越大、材料越多、施工时间越长,房子就能盖得越高越稳。核心:通过堆资源(算力、数据、模型参数)让AI变得更聪明。 具体含义:
、达西先生2 个月前
强化学习·端到端·rl
强化学习笔记6——异同策略、AC、等其他模型总结举例QLearning为什么是异策略? 生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。
、达西先生2 个月前
算法·rl·sarsa·q-learning
强化学习笔记——4策略迭代、值迭代、TD算法首先梳理一下: 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题 求解上述两种贝尔曼方程有三种方法:DP(有模型),MC(无模型),TD(DP和MC结合) 这三种只是方法,既可以用于求值迭代也可以用于求解策略迭代
PinkGranite5 个月前
gpt·cot·tot·rl·gpt o1
OpenAI GPT-o1实现方案记录与梳理
Nicolas8937 个月前
大模型·llm·强化学习·策略梯度·dqn·rl·智能体
【大模型理论篇】强化学习RL与大模型智能体大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
白云千载尽1 年前
rl·mpc
强化学习&MPC——(二)本篇主要介绍马尔科夫决策(MDP)过程,在介绍MDP之前,还需要对MP,MRP过程进行分析。马尔可夫性是指一个系统,在给定当前状态的情况下,未来的状态仅依赖于当前状态,而不依赖于过去的状态。换句话说,当前状态包含了过去所有状态的信息,因此未来的状态可以完全由当前状态决定。说白了就是带遗忘性质,下一个状态S_t+1仅与当前状态有关,而与之前的状态无关。 为什么需要马尔科夫性——简化环境模型。帮助强化学习来学习。 这种性质对于建模环境至关重要,因为它简化了问题的复杂性,并且使得我们能够用一个简洁的方式描述系统
天狼啸月19901 年前
强化学习·rl·robocup
强化学习RL实战 01:RoboCup Rescue simulatorofficial Readme:https://github.com/roborescue/rcrs-server/blob/master/README.adoc
喝凉白开都长肉的大胖子1 年前
强化学习·multi agent·rl
多智能体强化学习设计20231108多智能体强化学习适用于一系列问题,特别是那些涉及多个智能体相互作用的场景。以下是一些适合使用多智能体强化学习的问题示例: