强化学习

饮哉17 小时前
强化学习
PPO和GRPO面经这个写的不错,记录一下
hk112420 小时前
人工智能·云计算·数据集·元宇宙·强化学习
【RL/Virtualization】2026年度深度强化学习策略与云原生意识虚拟化基准索引 (Benchmark Index)为了验证**深度强化学习(Deep RL)在复杂博弈中的收敛速度,以及云原生(Cloud Native)架构在处理全脑仿真(Whole Brain Emulation)**时的延迟与带宽成本,我们整理了 "Benchmark-2020-Future" 核心测试集。
都叫我大帅哥1 天前
人工智能·算法·强化学习
PPO:那个让你在强化学习路上少摔几跤的“调酒师”本文适合以下人群阅读:想象一下,你正在教一只AI仓鼠玩跑轮。传统强化学习的方法是:就在这个时候,OpenAI的研究员们端着酒杯说:“干嘛这么复杂?我们加个‘裁剪’不就好了?”
DeepVis Research2 天前
人工智能·网络安全·机器人·数据集·强化学习
【AGI Safety/Robotics】2026年度 AGI 对抗性强化学习与软体机器人控制基准索引 (Skynet/Legion Core)为了验证**通用人工智能(AGI)在递归自我改进(Recursive Self-Improvement)过程中的安全性,以及软体机器人(Soft Robotics)**在极端物理形变下的控制精度,我们整理了 "Terminator-Saga-2026" 核心基准测试集。
nju_spy3 天前
人工智能·强化学习·策略迭代·近似动态规划·交叉熵方法·价值函数近似·无导数优化
强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris(交叉熵方法CE + ADP近似动态规划CBMPI)论文:ADP 近似动态规划玩 Tetris 俄罗斯方块无导数随机优化方法是一类不依赖目标函数梯度信息,通过随机采样、迭代更新来寻找最优解的优化算法,
人工智能培训3 天前
强化学习·ai学习·人工智能证书·强化学习入门·强化学习证书
强化学习怎么入门?强化学习入门指南:从零开始的智能决策之旅强化学习作为人工智能领域最激动人心的分支之一,正以其独特的决策能力改变着我们对智能系统的认知。如果你对如何让机器学会自主决策充满好奇,那么踏上强化学习的学习之旅将是一段充满挑战与收获的经历。
iiiiii113 天前
人工智能·学习·机器学习·强化学习·rl
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一TD(λ) 是时序差分学习与资格迹结合的统一算法,通过参数 λ ∈ [ 0 , 1 ] λ∈[0,1] λ∈[0,1] 实现 单步 TD(0) 与 蒙特卡洛方法 的连续插值。它提供两种等价的实现视角:前向视图(理论分析)和后向视图(在线实现)。
HaiLang_IT3 天前
强化学习·选题指导
【选题指导】强化学习毕业设计选题攻略(2025-2026 )📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。
昵称已被吞噬~‘(*@﹏@*)’~5 天前
python·macos·机器学习·强化学习·mujoco
【强化学习】MacOS (M1芯片)上最新版本 MuJoCo 通用安装教程(最简洁),PS:不是 mujoco_py 的老版本
core5125 天前
人工智能·分类·生成式ai·聚类·强化学习·无监督学习·有监督学习
AI 任务分类:人工智能到底能干啥?本文将带你通过生动的例子,通过“任务分类”的视角,看懂 AI 的能力版图。如果把人工智能(AI)比作一个刚入职的全能实习生,那么根据你交给他的任务不同,我们可以把 AI 的工作主要分为四大类:
传说故事6 天前
强化学习
RL中的reward model、value function 和 advantage function在强化学习(Reinforcement Learning, RL)中,reward model、value function 和 advantage function 都是核心概念,它们在不同层面上描述智能体(agent)如何评估其行为的好坏。下面我们逐一解释它们的含义,并说明它们之间的关系。
我爱C编程7 天前
matlab·强化学习·sarsa·迷宫路线规划
基于SARSA强化学习的迷宫路线规划matlab仿真目录1.引言2.算法测试效果3.算法涉及理论知识概要4.MATLAB核心程序5.完整算法代码文件获得SARSA属于在线时序差分学习算法,是强化学习中值迭代类算法的核心代表,也是Q-Learning的孪生算法。SARSA是在线策略更新价值函数时,使用当前正在执行的策略产生的样本,探索与利用同步进行,更保守、更适合避免危险的场景(如迷宫中规避障碍)。对于迷宫路线规划任务,SARSA能在探索过程中主动规避障碍(悬崖/死路),规划出更安全、更稳健的可行路线,因此成为迷宫规划的优选算法之一。
小毅&Nora7 天前
人工智能·强化学习
【人工智能】【强化学习】 ① 本年度大模型强化学习算法全景:6种主流算法深度解析在人工智能的浪潮中,大语言模型(LLM)已从"能说话"进化到"会思考"。而驱动这场革命的核心引擎,正是强化学习(RL)的持续创新。2025年,传统RL算法已无法满足千亿参数大模型的训练需求,催生了6种革命性算法。它们不再是实验室里的玩具,而是支撑着DeepSeek-R1、Qwen3等顶尖模型的工业级利器。本文将用生活化比喻带您深入理解这些"AI训练魔法师",并揭示它们在真实世界的落地故事。
车队老哥记录生活9 天前
人工智能·算法·机器学习·强化学习
强化学习 RL 基础 3:随机近似方法 | 梯度下降本文内容主要参考《赵世钰. 强化学习的数学原理》 整理编写,本文也加入了许多自己的认识,详细内容请参见教材,致谢 赵世钰 老师 和 GPT。
小喵要摸鱼10 天前
强化学习·rl·q-learning
Q-learning 算法 —— 无模型(model-free)强化学习眼里没有对纪念日的专属感言,只有对优质内容诞生的渴望!!!1989 年,Christopher J. C. H. Watkins 在其博士论文中系统提出并分析了 Q-learning 算法, 开创 无模型(model-free)强化学习 理论体系,为智能体在 未知环境 中通过试错交互直接学习最优状态-动作价值函数。
小喵要摸鱼10 天前
深度学习·强化学习
深度强化学习 Deep Q-learning:把深度学习引入强化学习参考:Deep Q-Learning in Reinforcement LearningDeep Q-learning 是一种利用 深度学习 帮助机器在 复杂情境 中 做出决策 的方法。它在状态数量极大的环境中尤为有效,例如视频游戏或机器人领域。
海边夕阳200610 天前
人工智能·经验分享·机器学习·强化学习·自注意力
【每天一个AI小知识】:什么是自注意力?目录一、小明的翻译难题:从故事说起二、自注意力的基本概念2.1 什么是自注意力?2.2 自注意力与传统注意力的区别
昨晚我输给了一辆AE8610 天前
前端·react.js·强化学习
react-hook-form 初始化值为异步获取的数据的最佳实践在 React Hook Form 中,直接在 useForm 的 defaultValues 参数中使用静态默认值是首选方式,因为:
励志成为大佬的小杨11 天前
强化学习
强化学习相关returns是智能体通过一个路径下,所获得的奖励的总和,通过returns能够知道如果智能体通过这样一个trajectory下,获得的奖励总和,来衡量与其他trajectory的比较,就能够知道哪一条道路更加适合。
智算菩萨12 天前
人工智能·算法·强化学习
强化学习从单代理到多代理系统的理论与算法架构综述参考文献:Zhang, D., Yuan, Q., Meng, L. et al. Reinforcement learning for single-agent to multi-agent systems: from basic theory to industrial application progress, a survey. Artif Intell Rev (2025). https://doi.org/10.1007/s10462-025-11439-9