强化学习

铮铭19 小时前
人工智能·机器人·强化学习·世界模型
扩散模型简介:The Annotated Diffusion ModelIn this blog post, we'll take a deeper look into Denoising Diffusion Probabilistic Models (also known as DDPMs, diffusion models, score-based generative models or simply autoencoders) as researchers have been able to achieve remarkable results with them f
七牛云行业应用1 天前
人工智能·强化学习·大模型架构·deepseek
告别RLHF?DeepSeek过程奖励(PRM)架构解析与推理数据流设计摘要: DeepSeek 刚刚发布的 Math-V2 模型凭借 7B 参数量在 IMO 级数学测试中击败了 GPT-4。这标志着大模型训练正在从“结果导向(ORM)”向“过程导向(PRM)”跃迁。本文深度解析 DeepSeek 的“元验证”架构,并探讨在这一新范式下,面对指数级增长的推理过程数据,企业应如何构建适配的高吞吐存储基础设施。
iiiiii112 天前
论文阅读·人工智能·笔记·学习·算法·机器学习·强化学习
【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应Wang, J., Zhang, J., Jiang, H., Zhang, J., Wang, L., & Zhang, C. (2023, July). Offline meta reinforcement learning with in-distribution online adaptation. In International Conference on Machine Learning (pp. 36626-36669). PMLR.
deephub2 天前
人工智能·机器学习·机器人·强化学习
BipedalWalker实战:SAC算法如何让机器人学会稳定行走下肢假肢的控制系统设计一直是个老大难问题。传统控制理论需要建立肢体和环境的精确数学模型,但现实世界可以不一样,比如说地面摩擦力时刻在变,坡度各不相同,患者随时可能绊一下。这就需要控制器具备自适应能力,能从失误中恢复,还得在没有显式编程的情况下习得自然的步态模式。
强化学习与机器人控制仿真6 天前
开发语言·人工智能·stm32·神经网络·机器人·强化学习·模仿学习
RSL-RL:开源人形机器人强化学习控制研究库目录系列文章目录前言一、引言二、功能特性2.1 算法2.2 辅助技术2.3 实用工具三、实现细节四、研究应用
山顶夕景7 天前
深度学习·llm·强化学习·rlvr
【RL】Does RLVR enable LLMs to self-improve?论文:Does RLVR enable LLMs to self-improve?(1)可验证奖励:首先,定义了一个LLM生成序列 y = ( y 1 , … , y T ) y = (y_1, \ldots, y_T) y=(y1,…,yT),并引入一个确定性验证器 V \mathcal{V} V,返回二进制奖励 r ∈ { 0 , 1 } r \in \{0, 1\} r∈{0,1},其中 r = 1 r = 1 r=1 当且仅当模型的最终答案完全正确。
神州问学12 天前
强化学习
「干货长文」强化学习完全指南:从基础MDP到TRPO/PPO/GRPO算法演进随着 gpt-o1出现以及 DeepSeek-R1 的技术开源,强化学习从以谷歌 DeepMind 团队为主的游戏领域,以及与传统控制相结合的具身智能机器人领域,走上了LLM甚至多模态的行业赛道。通过复杂任务拆解和奖励为导向的迭代训练大幅提升了大模型解决复杂问题能力,泛化性以及动态调整能力。Reinforce Learning 带领 LLM 步入 2.0 时代,继 PPO 之后,最近关于梯度优化(Policy Optimization)算法的创新也是层出不穷,GRPO,DAPO,CISPO 等 但是复杂的
九年义务漏网鲨鱼12 天前
人工智能·深度学习·算法·架构·大模型·强化学习
【多模态大模型面经】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。 ✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的
ModestCoder_13 天前
论文阅读·人工智能·笔记·学习·机器人·强化学习·具身智能
【学习笔记】Diffusion Policy for Robotics本文档基于我的兴趣与关注,结合扩散模型理论,全面阐述 Diffusion Policy 在机器人领域的应用。文档涵盖理论基础、实践经验、代码实现和前沿研究。
AI-Frontiers13 天前
强化学习
小白也能看懂的RLHF:基础篇原文: https://mp.weixin.qq.com/s/4_6CBXMJhqmiYKSzsAXncg
九年义务漏网鲨鱼16 天前
人工智能·深度学习·算法·大模型·强化学习
【大模型面经】千问系列专题面经🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。 ✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的
山顶夕景16 天前
llm·强化学习·rl·dpo
【RL-LLM】Self-Rewarding Language ModelsSelf-Rewarding Language Models这篇论文提出了自我奖励的语言模型来解决超人类智能代理的问题。具体来说,
山顶夕景16 天前
大模型·llm·强化学习·rl
【RL】ORPO: Monolithic Preference Optimization without Reference ModelL ORPO = E ( x , y w , y l ) [ L SFT + λ ⋅ L OR ] \mathcal{L}_{\text{ORPO}} = \mathbb{E}_{(x, y_w, y_l)} \left[ \mathcal{L}_{\text{SFT}} + \lambda \cdot \mathcal{L}_{\text{OR}} \right] LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]
Philtell18 天前
强化学习
【强化学习基础概念】智能体的位置就是状态状态的集合对每个状态来说,可能发出的行为一个状态发出所有动作的集合。状态变换的过程
不去幼儿园19 天前
人工智能·python·算法·安全·机器学习·强化学习
【强化学习】可证明安全强化学习(Provably Safe RL)算法详细介绍📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
weixin_3776348419 天前
开源·强化学习
【开源-AgentRL】创新强化学习 多项任务超闭源模型《AGENTRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework 》创新强化学习方式,采用策略交叉化与多任务优势归一化、人物混和训练等方式,在知识图谱问答、计算机指令执行等领域,超越了Claude、gpt-5等闭源模型,代码地址。
AI情报挖掘日志20 天前
agent·强化学习·多智能体协同·智能体·我的世界·人机协作·香港科技大学·aminer·人工智能技术突破·星露谷物语·aivilization·星露谷·具身只能·开放世界·社交智能
港科大Aivilization登场,打造“AI版星露谷物语”!解锁多智能体互动新玩法!如何让智能体像人类一样在复杂世界中学习社交技能 呢?近期,香港科技大学的Aivilization 项目给出了一个有趣的答案。这个项目以游戏的形式,让AI智能体在虚拟世界中工作、学习、赚钱,模拟人类活动!
青云交20 天前
java·机器学习·强化学习·模型融合·java 大数据·可控性·自然语言生成
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用实战嘿,亲爱的 Java 和 大数据爱好者们,大家好!我是CSDN(全区域)四榜榜首青云交!自然语言生成(NLG)技术正掀起人工智能领域的新一轮变革 —— 从智能客服自动应答,到新闻稿件批量生成,NLG 已深入内容生产、智能交互的每个角落。但当我们尝试让机器撰写符合特定风格的营销文案,或生成严谨的法律文书时,却常遭遇 “答非所问”“逻辑混乱” 的尴尬。如何让 AI 生成的文字既能 “妙笔生花”,又能精准契合业务需求?Java 大数据与机器学习的深度融合,正为这一难题提供破局之道。
山顶夕景24 天前
llm·强化学习·rl·奖励函数·reward
【RLVR】GRPO中奖励函数的设计逻辑1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
JJJJ_iii1 个月前
人工智能·笔记·python·机器学习·强化学习
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用视频链接 吴恩达机器学习p137-144在上一篇文章中,我们使用火星车的例子介绍了强化学习。在该示例中,环境的状态空间(State Space)是离散的(Discrete),即智能体只能处于有限的、可数的几个状态之一(例如6个位置)。然而,现实世界中绝大多数有意义的强化学习问题,其状态空间都是连续的(Continuous)。