强化学习

MocapLeader1 天前
机器人·ros·强化学习·多机器人协同·协同搬运
新型多机器人协作运输系统,轻松应对复杂路面受到鱼类、鸟类和蚂蚁等微小生物体协作操纵的启发,研究人员开发了多机器人协作运输系统(Multirobot Cooperative Transportation Systems,MRCTS)运输单个机器人无法处理的重型超大物体,可用于搜救行动、灾难响应、军事物资运输等场景。现有MRCTS主要在平坦路面上运输有效载荷,很少或根本无法在不平坦的道路上运输物体。
神经星星1 天前
人工智能·开源·强化学习
多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务如今,主体驱动生成 (subject-driven generation) 已经广泛应用于图像生成领域,但其在数据可扩展性和主体扩展性方面仍面临诸多挑战,例如从单主体数据集转向多主体并对其进行扩展尤为困难;目前的热门研究方向是单主体,在面对多主体生成任务时表现欠佳。
Q同学1 天前
llm·nlp·强化学习
字节ReTool:大模型也要学会善于利用工具尽管强化学习训练的推理模型在纯文本推理任务中表现突出,但在需要精确计算或符号操作的结构化问题上仍显不足。为此,本文提出 ReTool 框架,通过将实时代码执行与自然语言推理交叉集成,并采用结果驱动的强化学习策略,让模型自主学习何时、如何调用计算工具。训练过程分为两阶段:一是利用合成数据进行代码增强的监督微调,二是在沙箱环境中以任务正确性为奖励,迭代优化工具使用策略。在国际数学竞赛基准 AIME 上的实验显示,ReTool 在训练效率和最终准确率上均大幅领先于纯文本强化学习和多种竞争基线,并在模型中观察到诸
IceTeapoy2 天前
人工智能·算法·强化学习
【RL】强化学习入门(一):Q-Learning算法其实是强化学习入门第一部分~从问题定义到 Q-Learning 算法的提出。强化学习是一种学习如何从状态映射到动作以最大化最终奖励的学习机制。智能体需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。
Tech Synapse3 天前
python·机器人·pygame·强化学习
迷宫求解机器人:基于Pygame与Q-learning的强化学习实战教程在人工智能的浩瀚宇宙中,强化学习犹如一颗璀璨的新星,它让机器具备了类似生物体的学习能力。今天,我们将亲手打造一位具备环境感知能力的智能体——迷宫求解机器人。它将在虚拟的迷宫世界中探索、学习,最终找到通往自由的道路。这不仅是一场代码与算法的交响,更是对人类智能奥秘的一次致敬。
Q同学3 天前
llm·nlp·强化学习
OpenAI发布o3和o4-mini模型:全面工具访问的最强大模型几天前,OpenAI 发布了最新的o3和o4-mini模型,这些推理模型能够主动使用和结合ChatGPT内的所有工具(包括网页搜索、上传文件分析、使用Python分析数据、深入推理视觉输入,甚至生成图像)。这些模型经过训练,能够推理何时以及如何使用工具,以快速生成详细且深思熟虑的答案。o3和o4-mini在学术基准测试和实际任务中的表现大大增强,树立了智能性和实用性的新标准。
lskkkkkkkkkkkk6 天前
数学·算法·强化学习
强化学习的数学原理(六) Stochastic Approximation & Stochastic Grandient Descent由于全文太长,只好分开发了。 (已完结!在专栏查看本系列其他文章)个人博客可以直接看全文~本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。
神经星星7 天前
开源·强化学习·deepseek
在线教程丨媲美 o3-mini,开源代码推理模型 DeepCoder-14B-Preview 狂揽 3k stars4 月 9 日凌晨,Agentica 团队携手 Together AI 联合开源了名为 DeepCoder-14B-Preview 的代码推理模型,这个仅需 14B 即可媲美 OpenAI o3-Mini 的新模型迅速引起业界广泛关注,在 GitHub 狂揽 3k stars。
计算机视觉小刘8 天前
论文阅读·分布式·强化学习
DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)论文阅读标题:DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY(分布式优先级体验回放)
深蓝学院8 天前
无人机·强化学习
已开源!CMU提出NavRL :基于强化学习的无人机自主导航和动态避障新方案导读在无人机技术快速发展的今天,如何确保无人机在复杂动态环境中的安全飞行成为一个关键挑战。传统的导航方法通常将决策过程分解为预测和规划两个独立模块,这种手工设计的系统虽然在特定环境中表现良好,但当环境条件发生变化时,往往需要仔细的参数调整才能维持性能。此外,这些方法通常基于不准确的数学模型假设和为提高计算效率而进行的简化,可能导致次优解。
Nicolas8938 天前
大模型·强化学习·深度搜索·r1·深度研究·search-r1·深度检索增强
【大模型理论篇】Search-R1: 通过强化学习训练LLM推理与利⽤搜索引擎最近基于强化学习框架来实现大模型在推理和检索能力增强的项目很多,也是Deep Research技术持续演进的缩影。之前我们讨论过《R1-Searcher:通过强化学习激励llm的搜索能⼒》,今天我们分析下Search-R1【1】。
Mu先生Ai世界8 天前
产品经理·强化学习
强化学习RL训练“活”的游戏与虚拟伙伴 (AI产品经理智能NPC笔记 S1E03)在前两篇笔记中,我们打下了机器学习的基础,并深入探索了深度学习如何赋予NPC“看”和“听”的感知能力。
冀晓武11 天前
论文阅读·神经网络·强化学习·四足机器人
【论文阅读】RMA: Rapid Motor Adaptation for Legged RobotsRMA(Rapid Motor Adaptation)算法通过两阶段训练实现四足机器人在复杂环境中的快速适应。
Nicolas89311 天前
大模型·agent·强化学习·智能体·深度检索·深度研究·deepresearcher
【大模型理论篇】DeepResearcher论文分析-通过在真实环境中的强化学习实现深度研究大模型(LLMs)配合网络搜索功能已经展现出在深度研究任务中的巨大潜力。然而,目前的方法主要依赖两种途径:
计算机视觉小刘12 天前
网络·论文阅读·强化学习·多智能体
Multi-Agent Routing Value Iteration Network(多智能体路由值迭代网络)论文阅读标题:Multi-Agent Routing Value Iteration Network(多智能体路由值迭代网络)
盼小辉丶12 天前
深度学习·强化学习
深度解析强化学习:原理、算法与实战强化学习 (Reinforcement learning, RL) 是一种基于行为和心理学的学习形式,试图复制生物通过奖励学习的方式,类似于使用某种形式的奖励(如食物或赞美)训练宠物,强化学习建模对于理解高级意识和人类如何进行学习具有重要作用。本文首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题等,然后介绍经典的强化学习算法,最后实现在游戏中模拟强化学习算法。
仙人掌_lz20 天前
人工智能·python·算法·机器学习·面试·强化学习
机器学习ML极简指南机器学习是现代AI的核心,从推荐系统到自动驾驶,无处不在。但每个智能应用背后,都离不开那些奠基性的模型。本文用最简练的方式拆解核心机器学习模型,助你面试时对答如流,稳如老G。
林泽毅21 天前
算法·llm·强化学习
SwanLab x EasyR1:多模态LLM强化学习后训练组合拳,让模型进化更高效很开心,SwanLab已经与多模态LLM强化学习后训练框架EasyR1完成官方集成。在最新的EasyR1版本中,可以使用SwanLab进行实验跟踪与曲线可视化,并将LLM中间生成的内容直观的记录与管理起来。接下来让我介绍一下如何使用。
林泽毅22 天前
深度学习·机器学习·强化学习
SwanLab Slack通知插件:让AI训练状态同步更及时在AI模型训练的过程中,开发者常常面临一个难题:如何及时跟踪训练状态?无论是实验超参数的调整、关键指标的变化,还是意外中断的告警,传统的监控方式往往依赖手动刷新日志或反复检查终端,这不仅效率低下,还可能因信息滞后导致资源浪费和决策延迟。
Mr.Winter`23 天前
人工智能·pytorch·神经网络·机器学习·机器人·强化学习
深度强化学习 | 基于优先级经验池的DQN算法(附Pytorch实现)本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用