强化学习

2401_841495643 天前
人工智能·python·算法·强化学习·reinforce·策略梯度·蒙特卡洛
【强化学习】REINFORCE 算法目录一、引言二、REINFORCE 算法的核心定位与关键特性三、REINFORCE 算法的数学基础(通俗推导,贴合代码)
deephub3 天前
人工智能·pytorch·深度学习·强化学习
让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案DQN 用计算目标值,等于在挑 Q 值最高的动作,但是这些动作中包括了那些因为估计噪声而被高估的动作,素以就会产生过估计偏差,直接后果是训练不稳定、策略次优。
nju_spy4 天前
人工智能·强化学习·cvae·离线强化学习·双 q 学习·bcq·外推泛化误差
离线强化学习(一)BCQ 批量限制 Q-learningB站 张伟楠 离线RL动手学RL 离线RLBCQ: Batch-Constrained Q-learning
盼小辉丶6 天前
人工智能·pytorch·深度学习·强化学习
PyTorch实战(25)——使用PyTorch构建DQN模型我们已经探讨了深度Q网络 (Deep Q-learning Network, DQN) 的理论基础,在本节中,我们将使用 PyTorch 构建一个基于卷积神经网络 (Convolutional Neural Network, CNN) 的 DQN 模型,训练一个智能体进行视频游戏 Pong。本节的目标是完整展示如何运用 PyTorch 开发深度强化学习应用。
山顶夕景7 天前
大模型·llm·强化学习·rl
【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data这篇论文提出了绝对零(Absolute Zero)范式,用于解决不依赖外部数据的推理模型训练问题。具体来说,
_pinnacle_7 天前
神经网络·算法·强化学习·ppo·多维价值预测
多维回报与多维价值矢量化预测的PPO算法长期以来,强化学习算法都是使用单一的标量回报(Return or Reward)与价值(Value)估计,即只使用加权求和后的reward作为评价函数(Critic function)或值估计函数(Value function)的目标真值。
人工智能培训10 天前
人工智能·深度学习·安全·大模型·知识图谱·强化学习·大模型工程师
企业如何安全、私密地部署大模型?在数字化转型深入推进的今天,大模型已成为企业提升效率、优化服务的核心工具,但金融、医疗、政务等行业的企业在应用中,需直面敏感数据保护与合规性的双重挑战。将大模型私有化部署于企业自有基础设施,实现“数据不出门、AI能进门”,是平衡赋能价值与安全风险的核心路径。以下从全流程视角,拆解安全私密部署的关键策略。
盼小辉丶10 天前
pytorch·深度学习·强化学习
PyTorch实战(24)——深度强化学习机器学习通常可分为不同范式,例如监督学习、无监督学习、半监督学习、自监督学习以及强化学习。监督学习需要标注数据,是当前应用最广泛的机器学习范式。然而基于无监督和半监督学习的应用(仅需少量或无需标注)正持续增长,尤其是生成模型领域。更值得注意的是,大语言模型的崛起表明自监督学习(标签隐含在数据中)是一种更具前景的机器学习范式。 强化学习 (Reinforcement Learning, RL) 是机器学习的另一分支,被认为是最接近人类学习方式的范式。谷歌 DeepMind 开发的 AlphaGo 模型是一个
2401_8414956410 天前
人工智能·python·深度学习·强化学习·dqn·double dqn·dueling dqn
【强化学习】DQN 改进算法目录一、引言二、Double DQN 算法(一)Double DQN 的提出背景:解决原始 DQN 的 Q 值过估计问题
Struart_R11 天前
计算机视觉·大语言模型·强化学习·多模态·r1
VideoLLM相关论文(二)补充(一)中的VideoChat-R1和VideoAuto-R1motivation:在RL+MLLM基础上扩展更泛化的任务,比如时序定位,目标跟踪,并通过不同的奖励来强化。
啊阿狸不会拉杆11 天前
人工智能·算法·机器学习·ai·机器人·强化学习·ml
《机器学习》第六章-强化学习🔥 本文配套完整可运行代码,所有案例均经过实测,包含可视化对比、核心算法实现、实战项目,零基础也能轻松上手强化学习!
蓝海星梦11 天前
论文阅读·人工智能·自然语言处理·大语言模型·强化学习
【强化学习】深度解析 GSPO:解决 GRPO 中优化目标与奖励不匹配的问题强化学习(RL)在大规模语言模型的训练中逐渐成为关键技术,但随着模型规模的扩大和任务复杂度的增加,现有算法(如GRPO)常常在训练过程中出现稳定性问题,特别是在长响应生成时。这是因为GRPO依赖于token级别的奖励和重要性比率,在长序列中容易导致噪声累积,进而引发模型崩溃。
镰刀韭菜12 天前
大语言模型·强化学习·知识蒸馏·指令微调·deepseek·推理模型·旅程式学习
【LLM】一文理解推理大模型2024年,大语言模型领域呈现出日益细化的趋势。除了预训练和微调之外,我们还见证了各种专业化应用的兴起,从检索增强生成到代码助手,不一而足。我预计这一趋势将在2025年进一步加速,对特定领域和应用场景的优化(即“专业化”)将得到更加重视。 图1:阶段1至阶段3是开发大型语言模型的通用步骤。阶段4则针对特定用例对大型语言模型进行专门化处理。
victory043113 天前
强化学习
强化学习核心路线总结图片来源 李宏毅深度强化学习课程 https://www.bilibili.com/video/BV124411S7
AI-Frontiers13 天前
强化学习
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定原文: https://mp.weixin.qq.com/s/9f4mqYVGKNS-LhmHLl6CXw
Code-world-114 天前
linux·人工智能·ubuntu·强化学习·isaac sim
NVIDIA Isaac Sim 安装教程NVIDIA Isaac Sim 是一款基于 Omniverse 的高性能机器人仿真平台,广泛应用于机器人感知、控制与强化学习研究。
糖葫芦君14 天前
人工智能·算法·机器学习·强化学习
TRPO-trust region policy optimization论文讲解目录1.Preliminaries1. 把新策略和旧策略的性能差,转化为可计算的、和优势函数相关的形式:
蓝海星梦14 天前
人工智能·深度学习·自然语言处理·强化学习
【强化学习】深度解析 DAPO:从 GRPO 到 Decoupled Clip & Dynamic Sampling随着大规模语言模型(LLM)的发展,强化学习(RL)在提升模型推理能力方面发挥了重要作用,尤其在复杂任务如长链条推理(Long-CoT)中。然而,现有的强化学习方法(如PPO和GRPO)面临以下问题:
deephub15 天前
人工智能·机器学习·强化学习·多智能体
多智能体强化学习(MARL)核心概念与算法概览训练单个 RL 智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。
奔跑的花短裤16 天前
linux·ubuntu·机器人·强化学习·isaac sim·isaac lab
ubuntu安装Isaac sim4.5与强化学习使用因要进行强化学习等仿真工作,现在进行Isaac sim和Isaac lab等的使用。查询后了解到ubuntu20.04最多支持到Isaac sim 4.5版本,5.x版本最低需要ubuntu22.04。4.5版本是闭源核心,部分扩展开源,5.0版本核心代码开源(GitHub),完全可定制扩展,且移除 Foxy 支持,考虑到目前项目是在foxy上进行开发,所以先使用4.5版本进行入门学习,后续考虑迁移至5.0版本。 最终为:Ubuntu 20.04 + Isaac Sim 4.5 + Isaac Lab v