rl

Simulations RL 平台学习笔记

Science Robotics 丰田研究院提出通过示例引导RL的全身丰富接触操作学习方法人类表现出非凡的能力，可以利用末端执行器（手）的灵巧性、全身参与以及与环境的交互（例如支撑）来纵各种大小和形状的物体。人类灵活性的分类法包括精细和粗略的作技能。尽管前者（精细灵巧性）已在机器人技术中得到广泛研究，但粗大灵活性是一个探索较少的领域。人类和其他灵长类动物的粗大运动技能涉及通过激活包括手臂、躯干和腿在内的大肌肉群来锻炼整个身体。这些技能使人类能够实现日常功能，例如携带杂货袋、在客厅里移动沙发、重新调整沉重的罐子的方向以及抱婴儿（即使是在猩猩的情况下爬树）。在机器人技术领域，长期以来一直在努力复

深入理解蒙特卡洛树搜索（MCTS）：python从零实现虽然许多强化学习算法直接从经验中学习策略或价值函数（无模型），但还有一种强大的方法涉及规划。规划方法使用环境的模型（可以是预先已知的，也可以是学习得到的）来模拟未来可能性，并据此做出明智的决策。蒙特卡洛树搜索（MCTS）是一种非常成功的规划算法，它能够智能地探索从当前状态出发的潜在未来轨迹。

深度理解用于多智能体强化学习的单调价值函数分解QMIX算法：基于python从零实现在合作式多智能体强化学习（MARL）中，多个智能体携手合作，共同达成一个目标，通常会收到一个团队共享的奖励。在这种场景下，一个关键的挑战就是功劳分配：一个单独的智能体如何仅凭全局奖励信号来判断自己对团队成功或失败的贡献呢？简单的独立学习方法（比如每个智能体都运行 DQN）往往行不通，因为它把其他智能体当作了非静态环境的一部分，而且在功劳分配上也搞不定。

理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现多智能体强化学习（MARL）将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争，或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。

深入理解深度Q网络DQN：基于python从零实现深度Q网络（DQN）是深度强化学习领域里一个超厉害的算法。它把Q学习和深度神经网络巧妙地结合在了一起，专门用来搞定那些状态空间维度特别高、特别复杂的难题。它展示了用函数近似来学习价值函数的超能力，因为传统的表格方法在面对状态空间特别大或者连续不断的状态空间时，就会因为太复杂而搞不定。

为特定领域微调嵌入模型：打造专属的自然语言处理利器“学习不是装满一桶水，而是点燃一把火。” —— 叶芝我的博客主页： https://lizheng.blog.csdn.net

【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析目录DeepSeek-V3技术报告1. 摘要2. 引言3. DeepSeek V3 架构3.1 基础架构

老A的AI实验室

通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law通俗解释：就像建房子时，地基越大、材料越多、施工时间越长，房子就能盖得越高越稳。核心：通过堆资源（算力、数据、模型参数）让AI变得更聪明。具体含义：

、达西先生

强化学习笔记6——异同策略、AC、等其他模型总结举例QLearning为什么是异策略？生成动作时e的概率从Q表选，1-e概况随机。更新策略时，贪心策略选择Q_max作为动作。

、达西先生

强化学习笔记——4策略迭代、值迭代、TD算法首先梳理一下：通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题求解上述两种贝尔曼方程有三种方法：DP（有模型），MC（无模型），TD（DP和MC结合）这三种只是方法，既可以用于求值迭代也可以用于求解策略迭代

OpenAI GPT-o1实现方案记录与梳理

【大模型理论篇】强化学习RL与大模型智能体大模型商业化，解决某类实际的业务问题，仅靠大模型本身其实存在很大的局限性，很多场景下不足以完全胜任真实业务需求【1】。

白云千载尽

强化学习&MPC——（二）本篇主要介绍马尔科夫决策（MDP）过程，在介绍MDP之前，还需要对MP，MRP过程进行分析。马尔可夫性是指一个系统，在给定当前状态的情况下，未来的状态仅依赖于当前状态，而不依赖于过去的状态。换句话说，当前状态包含了过去所有状态的信息，因此未来的状态可以完全由当前状态决定。说白了就是带遗忘性质，下一个状态S_t+1仅与当前状态有关，而与之前的状态无关。为什么需要马尔科夫性——简化环境模型。帮助强化学习来学习。这种性质对于建模环境至关重要，因为它简化了问题的复杂性，并且使得我们能够用一个简洁的方式描述系统

天狼啸月1990

强化学习RL实战 01：RoboCup Rescue simulatorofficial Readme：https://github.com/roborescue/rcrs-server/blob/master/README.adoc

喝凉白开都长肉的大胖子

多智能体强化学习设计20231108多智能体强化学习适用于一系列问题，特别是那些涉及多个智能体相互作用的场景。以下是一些适合使用多智能体强化学习的问题示例：

我是有底线的