技术栈
强化学习
r0ad
16 小时前
强化学习
·
deepseek
DeepSeek-R1技术突破:纯RL训练竟能激发大模型"反思"能力?
开发|界面|引擎|交付|副驾——重写全栈法则:AI原生的倍速造应用流来自全栈程序员 nine 的探索与实践,持续迭代中。
s1ckrain
4 天前
论文阅读
·
强化学习
·
多模态大模型
·
vlm
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
原文摘要研究背景现状:VLMs 已展现出强大的多模态理解和推理能力局限:当前主要受限于基于文本的推理过程
智能汽车人
6 天前
人工智能
·
机器人
·
强化学习
Robot---能打羽毛球的机器人
Robot系列主要介绍一些比较有意思的机器人,前面的博客文章中也给读者朋友们展示了一些:《人形机器人---越来越像人了》
SunStriKE
18 天前
强化学习
veRL代码阅读-2.Ray
看VeRL代码之前发现代码里主要使用了ray框架来进行调度和通信. 所以先对ray进行初步学习, 后续有空闲时间再细看下Ray的代码.
我爱C编程
19 天前
5g
·
matlab
·
强化学习
·
基站资源动态分配
基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真
目录1.引言2.算法仿真效果演示3.数据集格式或算法参数简介4.算法涉及理论知识概要5G网络资源分配特点
微软开发者
19 天前
强化学习
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!投稿请联系:17278094563(微信号)
SunStriKE
21 天前
深度学习
·
强化学习
·
源码阅读
veRL代码阅读-1.论文原理
主要以PPO为基础来学习VeRL的整体训练流程. 在PPO里主要有4个模型:训练步骤主要分成3步:Generation: Actor 在一批prompt样本上进行forward推理
Listennnn
22 天前
人工智能
·
强化学习
强化学习三大分类
核心目标: 教会一个智能体(比如机器人、游戏AI、推荐系统)通过试错和奖励,学会在某个环境中完成特定任务的最佳策略。
JNU freshman
22 天前
强化学习
强化学习之 DQN、Double DQN、PPO
一个简单的比喻和分步解释来理解 DQN(Deep Q-Network,深度 Q 网络),就像教小朋友学打游戏一样:
MarkGosling
23 天前
llm
·
agent
·
强化学习
【资源合集】强化学习训练LLM Agents的实战资源库:AgentsMeetRL
如果你正在寻找将强化学习应用于语言模型智能体(LLM Agents)的开源解决方案,GitHub 上的资源库 AgentsMeetRL 值得重点关注。该项目系统整合了多个领域的强化学习训练框架、算法实现和奖励机制设计,为开发者提供了一份持续更新的技术路线图。
汤姆和佩琦
23 天前
学习
·
强化学习
·
策略随机探索
LLMs基础学习(八)强化学习专题(4)
强化学习算法可抽象为 “数据收集 → 学习优化” 闭环:核心矛盾:训练阶段,当前策略并非最优,需主动尝试 “非最优动作” 探索更优解 → 策略需具备随机探索能力 。
Gowi_fly
25 天前
llm
·
强化学习
从 PPO、DPO 到 GRPO:大语言模型策略优化算法解析
大语言模型(LLM)的训练通常分为预训练和后训练两个阶段。预训练阶段,模型在海量文本上学习下一词预测的能力;后训练阶段,我们希望进一步对齐模型输出与人类偏好,使模型给出的答案更符合人类期待。这常通过人类反馈强化学习(RLHF)来实现。RLHF的典型流程是:先让人类对模型的不同回答进行比较,得到偏好数据,然后训练一个奖励模型来评估回答质量,最后用强化学习方法微调语言模型的策略,使其生成被奖励模型高评分的回答。这一过程中诞生了多种策略优化算法,最知名的是OpenAI提出的近端策略优化(PPO)。PPO在Ins
我不是小upper
1 个月前
人工智能
·
强化学习
AReaL-boba²:首个全异步强化学习训练系统它来了!!
作为 AReaL 系列的第三代产品,AReaL-boba²(A-ReaL-double-boba)在清华大学交叉信息院与蚂蚁技术研究院的联合研发下,实现了从同步 RL 到全异步训练的范式革新。其核心突破源于三层技术重构:
panbaoran913
1 个月前
强化学习
·
hrl
【一】零基础--分层强化学习概览
分层强化学习(Hierarchical Reinforcement Learning, HRL)最早一般视为1993 年封建强化学习的提出.
AI速译官
1 个月前
强化学习
Confidence Is All You Need
语言模型的训练通常分为三个阶段:预训练阶段:模型在大规模文本数据上学习语言的基本模式和知识 有监督微调阶段:在特定任务的标注数据上进一步训练 后训练阶段:通过强化学习等方法让模型行为更好地符合人类期望
汤姆和佩琦
1 个月前
深度学习
·
学习
·
强化学习
·
马尔可夫决策过程
LLMs基础学习(八)强化学习专题(1)
这部分是为想学习强化学习的人准备的 “知识储备库”,提供不同形式的学习素材:这部分用简洁表述,把强化学习本质提炼出来:
白水baishui
1 个月前
架构
·
推荐系统
·
强化学习
·
决策服务
·
服务架构
搭建强化推荐的决策服务架构
在线推荐、广告投放等场景中,强化学习推荐系统需要依据当前的用户与环境信息(上下文)即时选择最合适的动作,也就是决定展示哪条新闻或广告。微软研究院发表的论文《Making Contextual Decisions with Low Technical Debt》针对这类“上下文决策”问题,提出了一套通用的决策服务框架——Decision Service。论文链接如下:
Ai多利
1 个月前
强化学习
·
卡尔曼滤波
能上Nature封面的idea!强化学习+卡尔曼滤波
2025深度学习发论文&模型涨点之——强化学习+卡尔曼滤波强化学习(Reinforcement Learning, RL)与卡尔曼滤波(Kalman Filtering, KF)的交叉研究已成为智能控制与状态估计领域的重要前沿方向。
我就是全世界
1 个月前
开源
·
强化学习
AReaL-boba²:开源异步强化学习训练系统的革命性突破
当蚂蚁集团的工业级AI研发实力遇上清华大学的前沿学术研究,这场产学研的"珍珠奶茶式"联姻直接催生了AReaL-boba²这个强化学习界的爆款。蚂蚁带来的分布式计算基础设施如同奶茶基底般扎实,而清华注入的强化学习算法创新则像波霸珍珠般Q弹——双方组建的"技术特调团队"甚至开发出专属术语:用"三分糖"形容动态调整的PPO超参数,用"去冰"代指显存优化技术。
瑶光守护者
1 个月前
人工智能
·
深度学习
·
神经网络
·
学习
·
机器学习
·
强化学习
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎
作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程,深度学习领域研究生必读教材),开始深度学习领域学习,深入全面的理解深度学习的理论知识。