强化学习

取酒鱼食--【余九】1 天前
人工智能·笔记·算法·机器人·强化学习
rl_sar功能包详解rl_sar 是一个专门用于机器人强化学习算法仿真验证与实物部署的ROS功能包。它提供了从仿真训练到真实机器人部署的完整工具链。
木亦汐丫2 天前
强化学习·tts·grpo·wer·sim·文本到语音·nar
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS论文地址:https://arxiv.org/abs/2504.02407v3我们提出了F5R-TTS,这是一种新颖的文本到语音(TTS)系统,它将群体相对策略优化(GRPO)集成到基于流匹配的架构中。 通过将流匹配TTS的确定性输出重新表述为概率高斯分布,我们的方法能够无缝集成强化学习算法。 在预训练期间,我们训练了一个基于概率重新表述的流匹配模型,该模型源自F5-TTS和一个开源数据集。 在随后的强化学习(RL)阶段,我们采用一个由GRPO驱动的增强阶段,该阶段利用双重奖励指标:通过自动语音识别计算的
小于小于大橙子3 天前
人工智能·算法·ai·自动驾驶·概率论·强化学习
强化学习的前世今生(五)— SAC算法书接前四篇 强化学习的前世今生(一) 强化学习的前世今生(二) 强化学习的前世今生(三)— PPO算法 强化学习的前世今生(四)— DDPG算法 本文为大家介绍SAC算法
预测及优化3 天前
分布式·能源·强化学习·数据驱动·综合能源·集群划分·电压调整
新能源集群划分+电压调节!基于分布式能源集群划分的电压调节策略!适用平台:Matlab+Yalmip+ Cplex (具体操作已在程序文件中说明)参考文献:基于分布式能源集群化分的电压调节策略[D].
阿丢是丢心心4 天前
chatgpt·微调·强化学习·rlhf
【从0到1搞懂大模型】chatGPT 中的对齐优化(RLHF)讲解与实战(9)chatgpt系列模型演进的重要节点包含下面几个模型(当然,这两年模型发展太快了,4o这些推理模型我就先不写了) (Transformer) → GPT-1 → GPT-2 → GPT-3 → InstructGPT/ChatGPT(GPT-3.5) → GPT-4 下面介绍一下各个模型之前的重点差异
我爱C编程5 天前
matlab·强化学习·pid控制·qlearning
基于Qlearning强化学习的二阶弹簧动力学模型PID控制matlab性能仿真目录1.算法仿真效果2.算法涉及理论知识概要2.1 传统PID控制器2.2 Q-Learning强化学习原理
-一杯为品-9 天前
学习·强化学习
【强化学习】#7 基于表格型方法的规划和学习主要参考学习资料:《强化学习(第2版)》[加]Richard S.Suttion [美]Andrew G.Barto 著
白水baishui9 天前
推荐系统·强化学习·偏差·反馈循环·feedback loop
推荐系统里真的存在“反馈循环”吗?推荐系统里真的存在“反馈循环”吗?许多人说,推荐算法不过是把用户早已存在的兴趣挖掘出来,你本来就爱听流行歌、买潮牌玩具,系统只是在合适的时间把它们端到你面前,再怎么迭代,算法也改变不了人的天性,反馈循环像是研究者们的学术噱头。
程序员老周66610 天前
sft·强化学习·openmanus·openmanus-rl·agentgym·行为克隆·强化学习环境
3. OpenManus-RL中使用AgentGym建立强化学习环境AgentGym是为评估和开发大模型agent而设计的支持多环境和多任务的框架。该框架统一采用ReAct格式,提供多样化的交互环境和任务,支持实时反馈和并发操作。
人类发明了工具10 天前
算法·数学建模·强化学习
【强化学习】深度强化学习 - Deep Q-Network(DQN)算法Deep Q-Network(DQN)将经典的Q-learning与深度神经网络相结合,使用卷积网络或多层感知机对动作价值函数进行逼近,并通过经验回放(Experience Replay)和目标网络(Target Network)两项关键技术稳定训练,从而在高维状态空间(如像素)下实现近乎人类水平的控制能力。DQN自2015年被DeepMind团队首次提出以来,已成为深度强化学习领域的基石算法之一,被广泛应用于游戏、机器人等场景。
仙人掌_lz14 天前
人工智能·python·算法·ai·强化学习·rl·mcts
深入理解蒙特卡洛树搜索(MCTS):python从零实现虽然许多强化学习算法直接从经验中学习策略或价值函数(无模型),但还有一种强大的方法涉及规划。规划方法使用环境的模型(可以是预先已知的,也可以是学习得到的)来模拟未来可能性,并据此做出明智的决策。蒙特卡洛树搜索(MCTS)是一种非常成功的规划算法,它能够智能地探索从当前状态出发的潜在未来轨迹。
仙人掌_lz18 天前
python·算法·强化学习·rl·价值函数
深度理解用于多智能体强化学习的单调价值函数分解QMIX算法:基于python从零实现在合作式多智能体强化学习(MARL)中,多个智能体携手合作,共同达成一个目标,通常会收到一个团队共享的奖励。在这种场景下,一个关键的挑战就是功劳分配:一个单独的智能体如何仅凭全局奖励信号来判断自己对团队成功或失败的贡献呢?简单的独立学习方法(比如每个智能体都运行 DQN)往往行不通,因为它把其他智能体当作了非静态环境的一部分,而且在功劳分配上也搞不定。
Mr.Winter`19 天前
人工智能·深度学习·神经网络·机器学习·数据挖掘·机器人·强化学习
深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用
IT猿手19 天前
神经网络·算法·matlab·人机交互·无人机·强化学习·无人机三维路径规划
基于强化学习 Q-learning 算法求解城市场景下无人机三维路径规划研究,提供完整MATLAB代码随着无人机在城市环境中的广泛应用,其三维路径规划问题日益受到关注。城市场景具有复杂多变的障碍物布局和严格的飞行安全要求,传统的路径规划算法往往难以满足实时性和最优性需求。本文提出了一种基于强化学习 Q-learning 算法的无人机三维路径规划方法,通过合理定义状态空间、动作空间和奖励函数,使无人机能够在城市场景中自主学习最优路径。实验结果表明,该算法能够有效避开障碍物,规划出较优的飞行路径,具有较高的成功率和适应性,为无人机在城市环境中的安全高效飞行提供了一种有效的解决方案。
仙人掌_lz21 天前
python·算法·强化学习·策略梯度·rl
理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现多智能体强化学习(MARL)将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争,或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。
仙人掌_lz22 天前
python·算法·强化学习·dqn·rl
深入理解深度Q网络DQN:基于python从零实现深度Q网络(DQN)是深度强化学习领域里一个超厉害的算法。它把Q学习和深度神经网络巧妙地结合在了一起,专门用来搞定那些状态空间维度特别高、特别复杂的难题。它展示了用函数近似来学习价值函数的超能力,因为传统的表格方法在面对状态空间特别大或者连续不断的状态空间时,就会因为太复杂而搞不定。
IT猿手23 天前
深度学习·算法·matlab·无人机·强化学习·qlearning·无人机路径规划
基于 Q-learning 的城市场景无人机三维路径规划算法研究,可以自定义地图,提供完整MATLAB代码随着无人机技术的不断发展,其在城市环境中的应用越来越广泛,如物流配送、航拍测绘、交通监控等。然而,城市场景具有复杂的建筑布局、密集的障碍物以及多变的飞行环境,给无人机的路径规划带来了巨大的挑战。传统的路径规划算法在三维复杂空间中往往难以满足实时性和最优性的要求。因此,研究一种有效的无人机三维路径规划算法具有重要的现实意义。Q-learning 算法作为一种强化学习方法,能够通过与环境的交互学习最优策略,为解决城市场景下无人机路径规划问题提供了新的思路。
Two summers ago23 天前
论文阅读·人工智能·机器学习·llm·强化学习
arXiv2025 | TTRL: Test-Time Reinforcement Learninghttps://github.com/PRIME-RL/TTRL📖导读:本篇博客有🦥精读版、🐇速读版及🤔思考三部分;精读版是全文的翻译,篇幅较长;如果你想快速了解论文方法,可以直接阅读速读版部分,它是对文章的通俗解读;思考部分是个人关于论文的一些拙见,欢迎留言指正、探讨。最佳排版建议使用电脑端阅读。
仙人掌_lz24 天前
人工智能·ai·自然语言处理·embedding·强化学习·rl·bge
为特定领域微调嵌入模型:打造专属的自然语言处理利器“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
碣石潇湘无限路1 个月前
人工智能·经验分享·笔记·生活·openai·强化学习
【AI】基于生活案例的LLM强化学习(入门帖)第一阶段:预训练 就好比教一个小孩先“读很多书”,让他获得基本的语言能力。对 LLM 来说,就是在海量文本上进行“预测下一个词”的训练,从而学到“语言的统计规律”。