强化学习

r0ad16 小时前
强化学习·deepseek
DeepSeek-R1技术突破:纯RL训练竟能激发大模型"反思"能力?开发|界面|引擎|交付|副驾——重写全栈法则:AI原生的倍速造应用流来自全栈程序员 nine 的探索与实践,持续迭代中。
s1ckrain4 天前
论文阅读·强化学习·多模态大模型·vlm
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning原文摘要研究背景现状:VLMs 已展现出强大的多模态理解和推理能力局限:当前主要受限于基于文本的推理过程
智能汽车人6 天前
人工智能·机器人·强化学习
Robot---能打羽毛球的机器人Robot系列主要介绍一些比较有意思的机器人,前面的博客文章中也给读者朋友们展示了一些:《人形机器人---越来越像人了》
SunStriKE18 天前
强化学习
veRL代码阅读-2.Ray看VeRL代码之前发现代码里主要使用了ray框架来进行调度和通信. 所以先对ray进行初步学习, 后续有空闲时间再细看下Ray的代码.
我爱C编程19 天前
5g·matlab·强化学习·基站资源动态分配
基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真目录1.引言2.算法仿真效果演示3.数据集格式或算法参数简介4.算法涉及理论知识概要5G网络资源分配特点
微软开发者19 天前
强化学习
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!投稿请联系:17278094563(微信号)
SunStriKE21 天前
深度学习·强化学习·源码阅读
veRL代码阅读-1.论文原理主要以PPO为基础来学习VeRL的整体训练流程. 在PPO里主要有4个模型:训练步骤主要分成3步:Generation: Actor 在一批prompt样本上进行forward推理
Listennnn22 天前
人工智能·强化学习
强化学习三大分类核心目标: 教会一个智能体(比如机器人、游戏AI、推荐系统)通过试错和奖励,学会在某个环境中完成特定任务的最佳策略。
JNU freshman22 天前
强化学习
强化学习之 DQN、Double DQN、PPO一个简单的比喻和分步解释来理解 DQN(Deep Q-Network,深度 Q 网络),就像教小朋友学打游戏一样:
MarkGosling23 天前
llm·agent·强化学习
【资源合集】强化学习训练LLM Agents的实战资源库:AgentsMeetRL如果你正在寻找将强化学习应用于语言模型智能体(LLM Agents)的开源解决方案,GitHub 上的资源库 AgentsMeetRL 值得重点关注。该项目系统整合了多个领域的强化学习训练框架、算法实现和奖励机制设计,为开发者提供了一份持续更新的技术路线图。
汤姆和佩琦23 天前
学习·强化学习·策略随机探索
LLMs基础学习(八)强化学习专题(4)强化学习算法可抽象为 “数据收集 → 学习优化” 闭环:核心矛盾:训练阶段,当前策略并非最优,需主动尝试 “非最优动作” 探索更优解 → 策略需具备随机探索能力 。
Gowi_fly25 天前
llm·强化学习
从 PPO、DPO 到 GRPO:大语言模型策略优化算法解析大语言模型(LLM)的训练通常分为预训练和后训练两个阶段。预训练阶段,模型在海量文本上学习下一词预测的能力;后训练阶段,我们希望进一步对齐模型输出与人类偏好,使模型给出的答案更符合人类期待。这常通过人类反馈强化学习(RLHF)来实现。RLHF的典型流程是:先让人类对模型的不同回答进行比较,得到偏好数据,然后训练一个奖励模型来评估回答质量,最后用强化学习方法微调语言模型的策略,使其生成被奖励模型高评分的回答。这一过程中诞生了多种策略优化算法,最知名的是OpenAI提出的近端策略优化(PPO)。PPO在Ins
我不是小upper1 个月前
人工智能·强化学习
AReaL-boba²:首个全异步强化学习训练系统它来了!!作为 AReaL 系列的第三代产品,AReaL-boba²(A-ReaL-double-boba)在清华大学交叉信息院与蚂蚁技术研究院的联合研发下,实现了从同步 RL 到全异步训练的范式革新。其核心突破源于三层技术重构:
panbaoran9131 个月前
强化学习·hrl
【一】零基础--分层强化学习概览分层强化学习(Hierarchical Reinforcement Learning, HRL)最早一般视为1993 年封建强化学习的提出.
AI速译官1 个月前
强化学习
Confidence Is All You Need语言模型的训练通常分为三个阶段:预训练阶段:模型在大规模文本数据上学习语言的基本模式和知识 有监督微调阶段:在特定任务的标注数据上进一步训练 后训练阶段:通过强化学习等方法让模型行为更好地符合人类期望
汤姆和佩琦1 个月前
深度学习·学习·强化学习·马尔可夫决策过程
LLMs基础学习(八)强化学习专题(1)这部分是为想学习强化学习的人准备的 “知识储备库”,提供不同形式的学习素材:这部分用简洁表述,把强化学习本质提炼出来:
白水baishui1 个月前
架构·推荐系统·强化学习·决策服务·服务架构
搭建强化推荐的决策服务架构在线推荐、广告投放等场景中,强化学习推荐系统需要依据当前的用户与环境信息(上下文)即时选择最合适的动作,也就是决定展示哪条新闻或广告。微软研究院发表的论文《Making Contextual Decisions with Low Technical Debt》针对这类“上下文决策”问题,提出了一套通用的决策服务框架——Decision Service。论文链接如下:
Ai多利1 个月前
强化学习·卡尔曼滤波
能上Nature封面的idea!强化学习+卡尔曼滤波2025深度学习发论文&模型涨点之——强化学习+卡尔曼滤波强化学习(Reinforcement Learning, RL)与卡尔曼滤波(Kalman Filtering, KF)的交叉研究已成为智能控制与状态估计领域的重要前沿方向。
我就是全世界1 个月前
开源·强化学习
AReaL-boba²:开源异步强化学习训练系统的革命性突破当蚂蚁集团的工业级AI研发实力遇上清华大学的前沿学术研究,这场产学研的"珍珠奶茶式"联姻直接催生了AReaL-boba²这个强化学习界的爆款。蚂蚁带来的分布式计算基础设施如同奶茶基底般扎实,而清华注入的强化学习算法创新则像波霸珍珠般Q弹——双方组建的"技术特调团队"甚至开发出专属术语:用"三分糖"形容动态调整的PPO超参数,用"去冰"代指显存优化技术。
瑶光守护者1 个月前
人工智能·深度学习·神经网络·学习·机器学习·强化学习
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程,深度学习领域研究生必读教材),开始深度学习领域学习,深入全面的理解深度学习的理论知识。