强化学习

Robot_Nav5 小时前
人工智能·深度学习·强化学习
深度学习与强化学习面试八股文知识点汇总SGD (随机梯度下降)Adam如何选择定义成因解决方案偏差-方差权衡Model-based vs. Model-free
盼小辉丶19 小时前
pytorch·深度学习·强化学习
PyTorch强化学习实战(9)——深度Q学习我们已经讨论价值迭代方法的问题,并了解了它的变体,Q学习。在本节中,我们将通过神经网络预处理环境状态来扩展Q学习方法,这将极大提升Q学习方法的灵活性和适用性。
我爱C编程2 天前
网络·matlab·强化学习·sarsa·异构蜂窝网络·基站休眠
基于Sarsa强化学习的异构蜂窝网络中基站休眠算法matlab仿真目录✅1.引言👉2.算法测试效果💡3.算法涉及理论知识概要1️⃣3.1 异构网络拓扑模型2️⃣3.2 信道模型与用户接入速率
熊猫钓鱼>_>3 天前
人工智能·llm·强化学习·rl·马尔可夫·mdp·决策过程
强化学习与决策优化:从理论到工程落地的完整指南摘要:强化学习(Reinforcement Learning, RL)作为人工智能领域的重要分支,正在从游戏场景走向工业现场。本文将深入讲解RL的核心原理、主流算法,并通过桥梁智能设计的具体案例,展示如何将RL技术落地应用于工程决策场景。
盼小辉丶5 天前
pytorch·深度学习·强化学习
PyTorch强化学习实战(8)——Q学习详解与实现我们已经学习了贝尔曼方程 (Bellman equation) 及其实际应用方法,价值迭代法(value iteration)。通过这种方法,我们显著提高了在 FrozenLake 环境中的训练速度和收敛性。在本节中,我们将使用相同的方法来处理复杂度更高的任务:来自 Atari 2600 平台的街机游戏,这些游戏已成为强化学习研究领域事实上的基准测试。
星座5285 天前
人工智能·深度学习·神经网络·transformer·强化学习·目标检测算法
驾驭AI 2.0时代:Transformer、扩散模型与物理信息神经网络核心技术解析近年来,随着卷积神经网络(CNN)等深度学习技术的飞速发展,人工智能迎来了第三次发展浪潮,AI技术在各行各业中的应用日益广泛。这个教程将带您全面掌握AI前沿技术、新理论及其Python代码实现,助您走在人工智能的技术前沿。
橘白3166 天前
人工智能·算法·机器人·强化学习
rl笔记(一):策略梯度更新算法推导重温总结一下强化学习的圣经-- ppo算法在 PPO 之前,最基础的策略梯度方法是通过计算策略梯度的估计值,并将其代入随机梯度上升算法
盼小辉丶8 天前
pytorch·深度学习·强化学习
PyTorch强化学习实战(7)——表格学习与贝尔曼方程我们已经学习了交叉熵方法及其优缺点。本节将探讨另一类更灵活、更强大的方法:Q学习。以 FrozenLake 环境为例,并探索Q学习如何与该环境结合,解决其不确定性相关问题。尽管本节使用的环境相对简单,但为深度Q学习方法奠定了基础。
盼小辉丶11 天前
人工智能·pytorch·python·强化学习
PyTorch强化学习实战——使用交叉熵方法解决 FrozenLake 环境我们已经学习了如何使用交叉熵方法解决 CartPole 环境,神经网络学会了仅通过观察值和奖励信号就学会了如何应对环境,完全不需要对观测值进行任何人工解读。虽然我们使用 CartPole 环境为例,但完全可以替换为其他场景,如以商品库存量为观察值、以营业收入为奖励的仓储模型。实现并不依赖于环境的具体细节,这正是强化学习模型的精妙之处,接下来我们将学习如何将完全相同的方法应用于 Gymnasium 库中的另一个环境,FrozenLake。
Luca_kill12 天前
大模型·强化学习·agent框架·ai架构·hermes agent
深度解构 Hermes Agent:从“中央调度”到“自我进化”的架构哲学在 AI Agent 赛道日益拥挤的今天,Hermes Agent 凭借其与 Nous Research 的深度绑定以及独特的“自我进化”能力,迅速成为开发者关注的焦点。与 OpenClaw 等强调“即插即用”的个人助手框架不同,Hermes 更像是一个为工程化落地和模型深度定制而生的企业级架构方案。
盼小辉丶13 天前
人工智能·pytorch·python·强化学习
PyTorch强化学习实战(6)——交叉熵方法详解与实现我们已经学习了 PyTorch 的基础知识。本节将介绍强化学习 (Reinforcement Learning, RL) 方法中的一种重要技术:交叉熵法。 尽管交叉熵方法在 RL 中的知名度不及深度Q网络 (Deep Q-Network, DQN) 或优势演员-评论家 (Advantage Actor-Critic, A2C) 等方法,但它具有独特优势。首先,交叉熵方法实现极其简单——其 PyTorch 实现甚至不足 100 行代码,这使其成为最易上手的 RL 方法之一。 其次,该方法具有出色的收敛性。在
盼小辉丶13 天前
人工智能·pytorch·python·强化学习
PyTorch强化学习实战(5)——PyTorch Ignite 事件驱动机制与实践我们已经学习了如何使用 PyTorch 构建深度学习模型,包括损失函数、优化器以及训练过程监控方法,在本节中,我们将介绍用于简化训练循环的高级接口库 PyTorch Ignite,演示如何通过其事件驱动架构简化训练流程,并重写生成对抗网络 (Generative Adversarial Network, GAN) 训练代码,展示如何减少模板代码,同时保持对训练过程的清晰控制。
joshchen21514 天前
人工智能·深度学习·算法·机器学习·强化学习
强化学习基础(赵世钰)第一章首先通过示例介绍强化学习(RL)的基本概念。然后在马尔可夫决策过程的框架下对这些概念进行形式化。网格单元:包含可通过单元格、禁止单元格、目标单元格以及边界。
joshchen21514 天前
人工智能·python·机器学习·强化学习
强化学习基础(赵世钰)第二章 贝尔曼方程第一章 强化学习基础本讲介绍强化学习中两个核心概念:状态值 (State Value):评估状态的价值
星马梦缘17 天前
人工智能·强化学习·gymnasium·星际争霸·sc2·starcraft2·sb3
强化学习实战8.3——用PPO打赢星际争霸【编写自定义环境GYM】我们已经写完下位机的脚本了,现在回过头来继续写上位机的内容。还记得gym的环境要自实现四个函数step() render() close() reset()
盼小辉丶18 天前
人工智能·pytorch·python·强化学习
PyTorch强化学习实战(4)——PyTorch基础我们已经学习了提供强化学习 (Reinforcement Learning, RL) 环境集合的开源库。RL 领域与深度学习 (Deep Learning, DL) 的结合,使得解决比以往更具挑战性的问题成为可能。这部分归功于 DL 方法和工具的发展,本节介绍流行的深度学习库,PyTorch,它使我们能够通过几行 Python 代码实现复杂的深度学习模型。
星马梦缘18 天前
强化学习·ppo·星际争霸·sc2·starcraft2·sb3
强化学习实战8——用PPO打赢星际争霸【整合版】我们之前总结过如何在Gym定义标准化环境、修改模型架构、输出MLP层。这次我们新拿到一个项目,就是做星际争霸的强化学习智能体。同样使用基于Gym环境训练。
Narrastory19 天前
人工智能·深度学习·强化学习
Note:强化学习(六)2026 | mingPPO,全称 Proximal Policy Optimization(近端策略优化),你可能在不少论文和开源项目中都见过它。它并不是一个从石头缝里蹦出来的全新算法,而是站在 A2C(Advantage Actor-Critic)的肩膀上,做了一次非常优雅的约束。本质上,PPO 依然属于 Actor-Critic 家族,它的核心革新在于:给策略更新加上一个“信任域”,让智能体在学习时步子不要迈得太大,从而避免因一次鲁莽的参数更新而导致整个训练崩溃。
简简单单做算法20 天前
matlab·图像分割·强化学习·qlearning·parzen窗
基于Qlearning强化学习和Parzen窗的图像分割算法matlab仿真目录✨1.前言📡2.算法测试效果图预览🔍3.算法运行软件版本✅4.部分核心程序🚀5.算法理论概述
深度之眼20 天前
目标检测·计算机视觉·强化学习
强化学习与目标检测王炸组合,IEEE Trans顶刊发表!今天和大家分享一个发文黄金组合:强化学习+目标检测!这组合的核心优势明显,不仅能解决传统检测的低效、泛化弱等痛点,还能适配小样本、复杂场景等难点问题。而且最关键的是,这方向创新空间足、接收度高,CCF/SCI都好发,也很适合冲顶会!难怪这两年它的热度一路猛涨。