强化学习

林泽毅7 小时前
算法·llm·强化学习
SwanLab x EasyR1:多模态LLM强化学习后训练组合拳,让模型进化更高效很开心,SwanLab已经与多模态LLM强化学习后训练框架EasyR1完成官方集成。在最新的EasyR1版本中,可以使用SwanLab进行实验跟踪与曲线可视化,并将LLM中间生成的内容直观的记录与管理起来。接下来让我介绍一下如何使用。
林泽毅1 天前
深度学习·机器学习·强化学习
SwanLab Slack通知插件:让AI训练状态同步更及时在AI模型训练的过程中,开发者常常面临一个难题:如何及时跟踪训练状态?无论是实验超参数的调整、关键指标的变化,还是意外中断的告警,传统的监控方式往往依赖手动刷新日志或反复检查终端,这不仅效率低下,还可能因信息滞后导致资源浪费和决策延迟。
Mr.Winter`2 天前
人工智能·pytorch·神经网络·机器学习·机器人·强化学习
深度强化学习 | 基于优先级经验池的DQN算法(附Pytorch实现)本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用
wxchyy4 天前
强化学习
强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)本期是手把手教你入门强化学习第二篇了,在这期,笔者会介绍强化学习中最核心的数学模型——Markov决策过程,用来描述智能体(Agent)与环境(Environment)交互的框架。同样会尽量通俗易懂,不过本次会有大量数学推导,如果对此不了解的友友,看不懂的没有关系,跟上期一样同样会有实践代码环节,帮助大家更好地理解背后的原理。
wxchyy4 天前
强化学习
强化学习:基础知识篇(包含Gym库的简单实践)——手把手教你入门强化学习(一)本期笔者将开启新的专栏--手把手教你入门强化学习。强化学习正在改变人类社会的方方面面,像基于强化学习的游戏AI,AlphaGo,以及最近大火的Deepseek的GRPO算法等等。所以笔者希望能带领大家走入强化学习的世界,同样笔者会尽量以通俗易懂的语言带领大家入门强化学习,当然,我的栏目还是喜欢以实践为主,本教程依旧是从入门到实践,先会简单介绍强化学习基础概念,然后会以Gym(强化学习环境库)进行一个案例的实操。
deephub4 天前
人工智能·大语言模型·强化学习
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
电力程序小学童5 天前
python·强化学习·dqn·q学习·微能源网
【强化学习】基于深度强化学习的微能源网能量管理与优化策略研究【Python】目录主要内容程序要点2.1 微能源网系统组成2.2 强化学习及Q学习算法部分代码运行结果下载链接该程序借助深度 Q 网络(DQN),学习预测负荷、风 / 光可再生能源功率输出及分时电价等环境信息,运用所学策略集对微能源网能量进行管理,该方法属于模型无关的价值型智能算法。
Blossom.1185 天前
深度学习·机器人·动态规划·人机交互·制造·强化学习·路径规划
基于深度强化学习的智能机器人路径规划技术研究在人工智能与机器人技术飞速发展的今天,智能机器人在工业、服务、物流等领域的应用日益广泛。路径规划作为智能机器人运动的核心技术之一,直接影响机器人的工作效率和安全性。近年来,深度强化学习(Deep Reinforcement Learning, DRL)技术为机器人路径规划带来了新的突破。本文将深入探讨深度强化学习在智能机器人路径规划中的应用,分析其原理、优势以及面临的挑战,并通过实验验证其有效性。 一、引言 路径规划是指在给定的环境中,为机器人找到一条从起点到终点的最优路径,同时避开障碍物。传统的路径规划
Mu先生Ai世界7 天前
强化学习
强化学习RL-NPC复杂奖励机制的陷阱与需求简化策略在强化学习领域,奖励函数的设计常被视为模型性能的核心驱动力。然而,本次实验揭示了一个反直觉现象:当奖励规则从4条扩展至8条时,AI贪吃蛇的觅食效率显著下降。
ModestCoder_8 天前
强化学习·具身智能
Ubuntu20.04系统安装IsaacSim4.5与IsaacLab环境今天用自己的Ubuntu20.04系统安装最新更新的IsaacSim 4.5 与 最新版的IsaacLab遇到了问题,且这个问题组里师兄之前也遇到了,我的解决方法是从头来过,所及记录一下。
文弱_书生11 天前
人工智能·神经网络·强化学习·马尔科夫决策
关于强化学习小记强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过**智能体(Agent)在环境(Environment)中不断尝试不同的动作(Action),并根据环境给予的奖励(Reward)**来学习最优策略(Policy),从而最大化长期回报(Return)。
CH3_CH2_CHO11 天前
算法·机器学习·强化学习·无监督学习·半监督学习·有监督学习
【机器学习】算法分类使用带标签的数据训练模型。 有监督学习是机器学习中最常见的一种类型,它利用已知的输入特征和对应的输出标签来训练模型,使模型能够学习到特征与标签之间的映射关系。在训练过程中,模型会不断地调整自身的参数,以最小化预测值与真实标签之间的误差,从而提高预测的准确性。
不去幼儿园12 天前
人工智能·算法·机器学习·自然语言处理·强化学习
【强化学习】Reward Model(奖励模型)详细介绍📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
藓类少女13 天前
人工智能·机器学习·强化学习
【机器学习】强化学习强化学习(Reinforcement Learning, RL)是一种机器学习方法,核心思想是通过试错来学习最优策略,以最大化长期收益(奖励)。它模仿了人类或动物在与环境交互中学习决策的方式。
kngines14 天前
人工智能·线性代数·大语言模型·概率论·强化学习·rlhf
从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.2核心数学基础:线性代数、概率论与梯度优化👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路线性代数是描述高维数据与模型结构的核心工具,其核心概念包括:
大模型铲屎官16 天前
人工智能·python·机器学习·llm·scikit-learn·强化学习·过拟合
从过拟合到强化学习:机器学习核心知识全解析01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChain:从文档加载到高效问答系统构建的全程实战 05-玩转 LangChain:深度评估问答系统的三种高效方法(示例生成、手动评估与LLM辅助评估) 06-从 0 到 1 掌握 LangChain Agents:自定义工具 + LLM 打造智能
BineHello17 天前
人工智能·算法·自动驾驶·动态规划·无人机·强化学习
强化学习 - PPO控制无人机PPO(Proximal Policy Optimization,近端策略优化)是一种强化学习算法,用于训练智能体(无人机)如何在环境中做出决策。它本质上是 策略梯度(Policy Gradient)方法 的一种改进,旨在提高训练稳定性,同时确保策略更新不过大。
林泽毅18 天前
python·深度学习·大模型·强化学习·swanlab·训练实战
SwanLab私有化部署教程!SwanLab私有化部署版面向所有个人用户免费开放,部署方案基于Docker Compose,能非常轻松地部署在 Windows/MacOS/Linux 机器上,希望能成为各位训练师的独门炼丹利器。
(initial)19 天前
人工智能·强化学习
大型语言模型与强化学习的融合:迈向通用人工智能的新范式——基于基础复现的实验平台构建1. 引言大型语言模型(LLM)在自然语言处理领域的突破,展现了强大的知识存储、推理和生成能力,为人工智能带来了新的可能性。强化学习(RL)作为一种通过与环境交互学习最优策略的方法,在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合,分析LLM如何赋能RL,并阐述这种融合对于迈向通用人工智能(AGI)的意义。为了更好地理解这一融合的潜力,我们基于“Large Language Model as a Policy Teacher for Training Reinforcement Learn
Mapmost22 天前
笔记·强化学习·数据可视化
【从零打造视觉盛宴·进阶篇】城市场景建模避坑指南,常见问题轻松破!by:Ligoudan近年来,伴随着数字经济的发展,数字孪生技术已经成为推动各行业“数智化”转型的关键力量,并广泛深入地应用于智慧园区、智慧公安等领域。