强化学习

山顶夕景2 天前
llm·强化学习·rlhf·gspo
【LLM-RL】GSPO算法Group Sequence Policy Optimization论文标题:Group Sequence Policy Optimization 论文链接:https://huggingface.co/papers/2507.18071 博客链接:https://qwenlm.github.io/blog/gspo/
山顶夕景3 天前
大模型·微调·swift·强化学习
【LLM】基于ms-Swift大模型SFT和RL的训练实践lora微调脚本例子如下,10分钟在单卡3090上对Qwen2.5-7B-Instruct进行自我认知微调:
GRITJW3 天前
强化学习
强化学习系统性学习笔记(一):从理论基础到策略优化强化学习的思想源头可以追溯到生物行为心理学中的"试错学习"原理。在自然界中,生物个体通过反复尝试不同行为并观察环境反馈,逐步学会选择能够带来更好结果的行动策略。这一朴素而普适的学习模式,为人工智能领域提供了重要启发。
、、、、南山小雨、、、、5 天前
pytorch·深度学习·机器学习·强化学习
Pytorch强化学习demo训练模型, 让它的输出更接近0.8。当离0.8越大, reward越小, 甚至为负, 那就代表着奖励更少, 惩罚更多。比如现在模型输出是0.5, 那么就会有对应的reward值, 代表正奖惩力度。那么当loss向前传导, step() 更新权重时, 它知道0.5会有惩罚, 但它怎么知道要大于0.5的方向调整, 还是小于0.5的方向调整呢。它其实会对reward = 1.0 - diff * 5这个式子求导处理。因此它知道这个0.5小了。如果输出的时0.9,它会知道大了。 它会根据reward = 1.0
段智华5 天前
强化学习·大模型微调
“AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案“AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案
大千AI助手7 天前
人工智能·大模型·llm·强化学习·评估基准·数学推理能力·math500
MATH-500:大模型数学推理能力评估基准本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
帅帅爱数学10 天前
算法·强化学习
DeepMimic论文详细解析:基于示例引导的深度强化学习实现物理仿真角色技能DeepMimic论文链接在角色动画领域,长期存在一个关键需求:将数据驱动的行为定义与物理仿真中的行为执行相结合,让角色既能复现参考动作,又能对干扰和环境变化做出真实响应。传统方法存在明显局限:
镰刀韭菜11 天前
人工智能·自然语言处理·大语言模型·强化学习·ppo·后训练·grpo
【大语言模型】大模型后训练入门指南这些能力有什么共同点呢?答案是:它们都是在后训练阶段(post-training) 中发展出来的。尽管后训练解锁的能力在几年前看起来几乎像魔法一样,但它获得的关注却远少于 Transformer 架构和预训练的基础内容。
bylander12 天前
论文阅读·大模型·llm·强化学习
【论文阅读】A Survey of Reinforcement Learning for Large Reasoning Modelshttps://arxiv.org/pdf/2509.08827一篇非常长的综述!!张凯言 1∗†1^{\ast \dagger}1∗† ,左宇欣 1∗†1^{\ast \dagger}1∗† ,何冰祥 1∗1^{*}1∗ ,孙友邦 1∗1^{*}1∗ ,刘润泽 1∗1^{*}1∗ ,姜彻 1∗1^{*}1∗ ,范宇辰 23∗2^{3*}23∗ ,田凯 1∗1^{*}1∗ ,贾国利 ∗^{*}∗ ,李鹏 k2,6∗k^2,6*k2,6∗ ,傅宇 9∗^{9*}9∗ ,吕兴泰,张宇辰 2,4∗2,4*2,4
Phoenixtree_DongZhao13 天前
人工智能·强化学习·混合专家
《Nature》封面:DeepSeek-R1通过强化学习激发大语言模型的推理能力https://www.nature.com/articles/s41586-025-09422-z.pdf
九章云极AladdinEdu13 天前
人工智能·随机森林·机器学习·强化学习·集成学习·boosting·ai研究
集成学习智慧:为什么Bagging(随机森林)和Boosting(XGBoost)效果那么好?在机器学习的世界里,有一个令人着迷的现象:通过组合多个相对简单的模型,往往能够获得比单个复杂模型更好的性能。这就是集成学习(Ensemble Learning)的核心思想——“三个臭皮匠,顶个诸葛亮”。
zzzyzh25 天前
强化学习
RL【8】:Value Function ApproximationRL【1】:Basic Concepts RL【2】:Bellman Equation RL【3】:Bellman Optimality Equation
zzzyzh1 个月前
强化学习
RL【7-1】:Temporal-difference LearningRL【1】:Basic Concepts RL【2】:Bellman Equation RL【3】:Bellman Optimality Equation
大千AI助手1 个月前
人工智能·深度学习·神经网络·llm·强化学习·verl·字节跳动seed
VeRL:强化学习与大模型训练的高效融合框架本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
zzzyzh1 个月前
强化学习
RL【3】:Bellman Optimality Equation本系列文章主要用于记录 B站 赵世钰老师的【强化学习的数学原理】的学习笔记,关于赵老师课程的具体内容,可以移步: B站视频:【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】 GitHub 课程资料:Book-Mathematical-Foundation-of-Reinforcement-Learning
deepdata_cn1 个月前
强化学习
强化学习框架(AReaL)AReaL(Ant Reasoning RL)是由蚂蚁技术研究院与清华大学交叉信息研究院联合开发的开源强化学习框架,专注于提升大型推理模型(LRM)的复杂逻辑推理能力。通过完全开放的技术生态,让开发者以极低门槛复现、优化甚至超越当前SOTA模型,尤其在数学推理等长链逻辑任务中展现出显著优势。
计算机sci论文精选1 个月前
人工智能·深度学习·机器学习·计算机视觉·机器人·强化学习·cvpr
CVPR 强化学习模块深度分析:连多项式不等式+自驾规划关注gongzhonghao【CVPR顶会精选】今天想和大家聊聊极具潜力的强化学习。它正处于技术突破爆发期,无论是理论创新还是工程落地,都有巨大探索空间。同时,作为跨领域的 “技术桥梁”,强化学习在自动驾驶、机器人、金融、游戏等需要动态决策的场景广泛应用,既能满足产业需求,又备受多领域关注。
Baihai_IDP1 个月前
人工智能·llm·强化学习
强化学习的“GPT-3 时刻”即将到来编者按: 强化学习能否像 GPT-3 改变自然语言处理那样,通过大规模扩展实现质的飞跃?为什么强化学习至今仍困在“先预训练,再微调”的传统模式中?为什么即使是最先进的 RL 模型,一旦脱离训练环境就变得如此脆弱?
@LijinLiu1 个月前
计算机视觉·强化学习
强化学习基本实操强化学习(Reinforcement Learning, RL)是近年来人工智能领域的热门方向,而 Stable-Baselines3 是目前最常用、最友好的 RL 库之一。本文带你快速上手,从安装到训练智能体,并尝试不同环境。
龙腾亚太2 个月前
机器学习·无人机·强化学习·深度强化学习
基于深度强化学习的无人机自主感知−规划−控制策略作者:吕茂隆, 丁晨博, 韩浩然, 段海滨摘要:近年来, 随着深度强化学习(DRL)方法快速发展, 其在无人机(UAV)自主导航上的应用也受到越来越广泛的关注. 然而, 面对复杂未知的环境, 现存的基于DRL的UAV自主导航算法常受限于对全局信息的依赖和特定训练环境的约束, 极大地限制了其在各种场景中的应用潜力. 为解决上述问题, 提出多尺度输入用于平衡感受野与状态维度, 以及截断操作来使智能体能够在扩张后的环境中运行. 此外, 构建自主感知−规划−控制架构, 赋予UAV在多样复杂环境中自主导航的能力.