rl

仙人掌_lz3 天前
python·算法·强化学习·策略梯度·rl
理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现多智能体强化学习(MARL)将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争,或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。
仙人掌_lz4 天前
python·算法·强化学习·dqn·rl
深入理解深度Q网络DQN:基于python从零实现深度Q网络(DQN)是深度强化学习领域里一个超厉害的算法。它把Q学习和深度神经网络巧妙地结合在了一起,专门用来搞定那些状态空间维度特别高、特别复杂的难题。它展示了用函数近似来学习价值函数的超能力,因为传统的表格方法在面对状态空间特别大或者连续不断的状态空间时,就会因为太复杂而搞不定。
仙人掌_lz6 天前
人工智能·ai·自然语言处理·embedding·强化学习·rl·bge
为特定领域微调嵌入模型:打造专属的自然语言处理利器“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
木亦汐丫2 个月前
sft·rl·mtp·mla·deepseekmoe·fp8 混合精度训练·dualpipe算法
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构
老A的AI实验室3 个月前
人工智能·深度学习·算法·chatgpt·llm·agi·rl
通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law通俗解释:就像建房子时,地基越大、材料越多、施工时间越长,房子就能盖得越高越稳。核心:通过堆资源(算力、数据、模型参数)让AI变得更聪明。 具体含义:
、达西先生3 个月前
强化学习·端到端·rl
强化学习笔记6——异同策略、AC、等其他模型总结举例QLearning为什么是异策略? 生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。
、达西先生3 个月前
算法·rl·sarsa·q-learning
强化学习笔记——4策略迭代、值迭代、TD算法首先梳理一下: 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题 求解上述两种贝尔曼方程有三种方法:DP(有模型),MC(无模型),TD(DP和MC结合) 这三种只是方法,既可以用于求值迭代也可以用于求解策略迭代
PinkGranite7 个月前
gpt·cot·tot·rl·gpt o1
OpenAI GPT-o1实现方案记录与梳理
Nicolas8939 个月前
大模型·llm·强化学习·策略梯度·dqn·rl·智能体
【大模型理论篇】强化学习RL与大模型智能体大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
白云千载尽1 年前
rl·mpc
强化学习&MPC——(二)本篇主要介绍马尔科夫决策(MDP)过程,在介绍MDP之前,还需要对MP,MRP过程进行分析。马尔可夫性是指一个系统,在给定当前状态的情况下,未来的状态仅依赖于当前状态,而不依赖于过去的状态。换句话说,当前状态包含了过去所有状态的信息,因此未来的状态可以完全由当前状态决定。说白了就是带遗忘性质,下一个状态S_t+1仅与当前状态有关,而与之前的状态无关。 为什么需要马尔科夫性——简化环境模型。帮助强化学习来学习。 这种性质对于建模环境至关重要,因为它简化了问题的复杂性,并且使得我们能够用一个简洁的方式描述系统
天狼啸月19901 年前
强化学习·rl·robocup
强化学习RL实战 01:RoboCup Rescue simulatorofficial Readme:https://github.com/roborescue/rcrs-server/blob/master/README.adoc
喝凉白开都长肉的大胖子2 年前
强化学习·multi agent·rl
多智能体强化学习设计20231108多智能体强化学习适用于一系列问题,特别是那些涉及多个智能体相互作用的场景。以下是一些适合使用多智能体强化学习的问题示例: