技术栈
强化学习
SunStriKE
2 小时前
强化学习
veRL代码阅读-2.Ray
看VeRL代码之前发现代码里主要使用了ray框架来进行调度和通信. 所以先对ray进行初步学习, 后续有空闲时间再细看下Ray的代码.
我爱C编程
1 天前
5g
·
matlab
·
强化学习
·
基站资源动态分配
基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真
目录1.引言2.算法仿真效果演示3.数据集格式或算法参数简介4.算法涉及理论知识概要5G网络资源分配特点
微软开发者
1 天前
强化学习
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!投稿请联系:17278094563(微信号)
SunStriKE
3 天前
深度学习
·
强化学习
·
源码阅读
veRL代码阅读-1.论文原理
主要以PPO为基础来学习VeRL的整体训练流程. 在PPO里主要有4个模型:训练步骤主要分成3步:Generation: Actor 在一批prompt样本上进行forward推理
Listennnn
4 天前
人工智能
·
强化学习
强化学习三大分类
核心目标: 教会一个智能体(比如机器人、游戏AI、推荐系统)通过试错和奖励,学会在某个环境中完成特定任务的最佳策略。
JNU freshman
4 天前
强化学习
强化学习之 DQN、Double DQN、PPO
一个简单的比喻和分步解释来理解 DQN(Deep Q-Network,深度 Q 网络),就像教小朋友学打游戏一样:
MarkGosling
5 天前
llm
·
agent
·
强化学习
【资源合集】强化学习训练LLM Agents的实战资源库:AgentsMeetRL
如果你正在寻找将强化学习应用于语言模型智能体(LLM Agents)的开源解决方案,GitHub 上的资源库 AgentsMeetRL 值得重点关注。该项目系统整合了多个领域的强化学习训练框架、算法实现和奖励机制设计,为开发者提供了一份持续更新的技术路线图。
汤姆和佩琦
5 天前
学习
·
强化学习
·
策略随机探索
LLMs基础学习(八)强化学习专题(4)
强化学习算法可抽象为 “数据收集 → 学习优化” 闭环:核心矛盾:训练阶段,当前策略并非最优,需主动尝试 “非最优动作” 探索更优解 → 策略需具备随机探索能力 。
Gowi_fly
7 天前
llm
·
强化学习
从 PPO、DPO 到 GRPO:大语言模型策略优化算法解析
大语言模型(LLM)的训练通常分为预训练和后训练两个阶段。预训练阶段,模型在海量文本上学习下一词预测的能力;后训练阶段,我们希望进一步对齐模型输出与人类偏好,使模型给出的答案更符合人类期待。这常通过人类反馈强化学习(RLHF)来实现。RLHF的典型流程是:先让人类对模型的不同回答进行比较,得到偏好数据,然后训练一个奖励模型来评估回答质量,最后用强化学习方法微调语言模型的策略,使其生成被奖励模型高评分的回答。这一过程中诞生了多种策略优化算法,最知名的是OpenAI提出的近端策略优化(PPO)。PPO在Ins
我不是小upper
8 天前
人工智能
·
强化学习
AReaL-boba²:首个全异步强化学习训练系统它来了!!
作为 AReaL 系列的第三代产品,AReaL-boba²(A-ReaL-double-boba)在清华大学交叉信息院与蚂蚁技术研究院的联合研发下,实现了从同步 RL 到全异步训练的范式革新。其核心突破源于三层技术重构:
panbaoran913
8 天前
强化学习
·
hrl
【一】零基础--分层强化学习概览
分层强化学习(Hierarchical Reinforcement Learning, HRL)最早一般视为1993 年封建强化学习的提出.
AI速译官
9 天前
强化学习
Confidence Is All You Need
语言模型的训练通常分为三个阶段:预训练阶段:模型在大规模文本数据上学习语言的基本模式和知识 有监督微调阶段:在特定任务的标注数据上进一步训练 后训练阶段:通过强化学习等方法让模型行为更好地符合人类期望
汤姆和佩琦
13 天前
深度学习
·
学习
·
强化学习
·
马尔可夫决策过程
LLMs基础学习(八)强化学习专题(1)
这部分是为想学习强化学习的人准备的 “知识储备库”,提供不同形式的学习素材:这部分用简洁表述,把强化学习本质提炼出来:
白水baishui
15 天前
架构
·
推荐系统
·
强化学习
·
决策服务
·
服务架构
搭建强化推荐的决策服务架构
在线推荐、广告投放等场景中,强化学习推荐系统需要依据当前的用户与环境信息(上下文)即时选择最合适的动作,也就是决定展示哪条新闻或广告。微软研究院发表的论文《Making Contextual Decisions with Low Technical Debt》针对这类“上下文决策”问题,提出了一套通用的决策服务框架——Decision Service。论文链接如下:
Ai多利
15 天前
强化学习
·
卡尔曼滤波
能上Nature封面的idea!强化学习+卡尔曼滤波
2025深度学习发论文&模型涨点之——强化学习+卡尔曼滤波强化学习(Reinforcement Learning, RL)与卡尔曼滤波(Kalman Filtering, KF)的交叉研究已成为智能控制与状态估计领域的重要前沿方向。
我就是全世界
16 天前
开源
·
强化学习
AReaL-boba²:开源异步强化学习训练系统的革命性突破
当蚂蚁集团的工业级AI研发实力遇上清华大学的前沿学术研究,这场产学研的"珍珠奶茶式"联姻直接催生了AReaL-boba²这个强化学习界的爆款。蚂蚁带来的分布式计算基础设施如同奶茶基底般扎实,而清华注入的强化学习算法创新则像波霸珍珠般Q弹——双方组建的"技术特调团队"甚至开发出专属术语:用"三分糖"形容动态调整的PPO超参数,用"去冰"代指显存优化技术。
瑶光守护者
20 天前
人工智能
·
深度学习
·
神经网络
·
学习
·
机器学习
·
强化学习
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎
作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程,深度学习领域研究生必读教材),开始深度学习领域学习,深入全面的理解深度学习的理论知识。
取酒鱼食--【余九】
21 天前
人工智能
·
笔记
·
算法
·
机器人
·
强化学习
rl_sar功能包详解
rl_sar 是一个专门用于机器人强化学习算法仿真验证与实物部署的ROS功能包。它提供了从仿真训练到真实机器人部署的完整工具链。
木亦汐丫
22 天前
强化学习
·
tts
·
grpo
·
wer
·
sim
·
文本到语音
·
nar
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS
论文地址:https://arxiv.org/abs/2504.02407v3我们提出了F5R-TTS,这是一种新颖的文本到语音(TTS)系统,它将群体相对策略优化(GRPO)集成到基于流匹配的架构中。 通过将流匹配TTS的确定性输出重新表述为概率高斯分布,我们的方法能够无缝集成强化学习算法。 在预训练期间,我们训练了一个基于概率重新表述的流匹配模型,该模型源自F5-TTS和一个开源数据集。 在随后的强化学习(RL)阶段,我们采用一个由GRPO驱动的增强阶段,该阶段利用双重奖励指标:通过自动语音识别计算的
小于小于大橙子
23 天前
人工智能
·
算法
·
ai
·
自动驾驶
·
概率论
·
强化学习
强化学习的前世今生(五)— SAC算法
书接前四篇 强化学习的前世今生(一) 强化学习的前世今生(二) 强化学习的前世今生(三)— PPO算法 强化学习的前世今生(四)— DDPG算法 本文为大家介绍SAC算法