强化学习

deephub1 天前
人工智能·机器学习·强化学习·多智能体
多智能体强化学习(MARL)核心概念与算法概览训练单个 RL 智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。
奔跑的花短裤2 天前
linux·ubuntu·机器人·强化学习·isaac sim·isaac lab
ubuntu安装Isaac sim4.5与强化学习使用因要进行强化学习等仿真工作,现在进行Isaac sim和Isaac lab等的使用。查询后了解到ubuntu20.04最多支持到Isaac sim 4.5版本,5.x版本最低需要ubuntu22.04。4.5版本是闭源核心,部分扩展开源,5.0版本核心代码开源(GitHub),完全可定制扩展,且移除 Foxy 支持,考虑到目前项目是在foxy上进行开发,所以先使用4.5版本进行入门学习,后续考虑迁移至5.0版本。 最终为:Ubuntu 20.04 + Isaac Sim 4.5 + Isaac Lab v
victory04312 天前
强化学习
大模型后训练强化学习理论基础应该看李宏毅强化学习还是看斯坦福CS234针对你 “1个月内、求职导向、大模型后训练(Post-training)” 的核心目标,我的建议非常直接:
人工智能培训3 天前
人工智能·深度学习·大模型·知识图谱·强化学习·智能体搭建·大模型工程师
如何大幅降低大模型的训练和推理成本?大模型的训练与推理成本主要源于海量参数带来的算力消耗、存储开销和资源利用率低下等问题。要实现成本的大幅降低,需从模型本身、计算架构、训练流程、部署管理等多维度协同优化,在保证模型性能不显著下降的前提下,最大化资源利用效率。以下是经过产业实践验证的核心策略:
清蒸鳜鱼3 天前
机器学习·语言模型·强化学习
【系列跟学之——强化学习】基础篇学习资料:https://hrl.boyuai.com强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。
WhereIsMyChair4 天前
强化学习
VERL的损失函数计算方式这段代码定义了一个损失聚合函数 agg_loss,主要用于在大规模分布式训练(如 FSDP 或 Megatron-LM)中,将不同 GPU 上的微批次(micro-batch)损失转换成一个全局一致的标量损失。
蜡笔小新..5 天前
人工智能·强化学习·rl
从零学习 RL :初识强化学习已经接触 RL 有一段时间了,做过一些 Demo 和 paper,今天想重新复盘一下 RL 的全部内容,主要用于以后回顾起来更方便些。
QiZhang | UESTC6 天前
大模型·强化学习·rl4llm
RL4LLMRL4LLM 这是新的学习方向,已经抛弃了rec(_)。具体的学习资源推荐(包括必学资源、选学资源)、项目实践清单,见学习路径文档。
nju_spy6 天前
人工智能·python·强化学习·actor-critic·多臂老虎机·汤普森采样·探索与利用
动手学强化学习上交张伟楠(一)导论 + 多臂老虎机 MAB(ε-greedy+上置信界+汤普森采样)B站视频网页版教材强化学习导论与多臂老虎机(MAB)核心内容。导论部分梳理了价值学习、策略学习及 actor-critic 三种架构,阐述深度强化学习的参数化优势与前沿研究方向;
程序员Agions7 天前
前端·程序员·强化学习
程序员武学修炼手册(三):融会贯通——从写好代码到架构设计"小有所成修的是'术',融会贯通修的是'道'。" —— 《程序员修炼心法》在前两篇中,我们经历了:当你开始思考"系统应该怎么设计"而不只是"代码应该怎么写"的时候,恭喜你,你已经踏入了融会贯通的大门——成为真正的一流高手。
索木木8 天前
大模型·sft·强化学习·思维链
强化学习与思维链一. 强化学习1.SFT与强化学习2.RM(奖励模型)ORM(结果奖励):标注困难,成本高PRM(过程奖励): 简单, 但存在结果对, 过程错的情况。
nju_spy9 天前
人工智能·强化学习·reinforce·ppo·数据异质性·大模型后训练·奖励函数
RL4LLM_Survey 强化学习在大语言模型后训练综述Review of Reinforcement Learning for Large Language Models: Formulations, Algorithms, and Opportunities
AI-Frontiers10 天前
强化学习·大模型训练
小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO原文: https://mp.weixin.qq.com/s/9KT9LrMTXDGHSvGFrQhRkg
超的小宝贝10 天前
深度学习·机器学习·强化学习
机器学习期末复习分类、回归的概念区别训练集、验证集、测试集监督学习、非监督学习回归问题、分类问题欠拟合、过拟合泛化模型对未见过的新数据的预测能力,是机器学习的核心目标。
空山新雨后、10 天前
人工智能·深度学习·强化学习
深度学习VS强化学习:预测与决策的本质差异在过去十年里,“深度学习”几乎成为人工智能的代名词:图像识别、语音识别、机器翻译、大模型,离不开深度神经网络。与此同时,“强化学习”也因为 AlphaGo、机器人控制、自动驾驶决策而频繁出圈。
Tfly__11 天前
linux·人工智能·pytorch·ubuntu·github·无人机·强化学习
Ubuntu20.04安装Genesis(最新)它包含以下核心功能:环境:Ubuntu 20.04,Python 3.11,torch-2.8.0+cu128,NVIDIA RTX 3060 12G,NVIDIA Driver Version: 570.133.07。
人工智能培训11 天前
人工智能·大模型·知识图谱·强化学习·智能体搭建
10分钟了解向量数据库(3)3 向量检索算法#Agent大模型#工信部证书#人工智能证书#职业证书
在西安放羊的牛油果13 天前
前端·强化学习
原型污染安全漏洞原型污染安全漏洞(Prototype Pollution) 是前端 / Node.js 生态里非常重要、也非常容易被忽略的一类漏洞。该漏洞最终可导致权限绕过,是前端安全中的高危问题。
春日见13 天前
开发语言·jvm·人工智能·python·学习·matlab·强化学习
强化学习第一讲:强化学习是什么,强化学习分类“强化学习与深度学习最大的不同在于: 它是‘在干中学’。它不需要预先准备好的标准答案(标签),而是通过机器人与环境的实时交互产生经验。它将动作产生的奖励信号作为指引,通过不断试错,最终学会在特定状态下采取哪种动作能获得最高累计分数。这让它能够解决那些‘连人类都不知道标准答案’的复杂决策问题。”
人工智能培训14 天前
人工智能·大模型·知识图谱·强化学习·智能体搭建
强化学习路径规划:技术内核与应用实践在人工智能技术迅猛发展的当下,路径规划作为智能体自主决策的核心环节,广泛应用于自动驾驶、机器人导航、物流调度等领域。传统路径规划方法如Dijkstra算法、A*算法虽能解决简单场景下的路径搜索问题,但在动态环境、多目标约束等复杂场景中,难以实现决策的实时性与最优性。强化学习以“试错学习”为核心,通过智能体与环境的持续交互优化决策策略,为复杂场景下的路径规划提供了全新解决方案。