强化学习

JJJJ_iii3 天前
人工智能·笔记·python·机器学习·强化学习
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用视频链接 吴恩达机器学习p137-144在上一篇文章中,我们使用火星车的例子介绍了强化学习。在该示例中,环境的状态空间(State Space)是离散的(Discrete),即智能体只能处于有限的、可数的几个状态之一(例如6个位置)。然而,现实世界中绝大多数有意义的强化学习问题,其状态空间都是连续的(Continuous)。
CoovallyAIHub4 天前
深度学习·计算机视觉·强化学习
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?多模态AI并非平等处理所有信息,其偏好暗藏玄机近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这些模型会更倾向于相信哪种信息?
盼小辉丶5 天前
深度学习·keras·强化学习
优势演员-评论家(Advantage Actor-Critic,A2C)算法详解与实现在强化学习领域,演员-评论家 (Actor-Critic) 方法融合策略优化与价值评估,是解决复杂决策问题的重要框架。基于这一基础,优势演员-评论家 (Advantage Actor-Critic, A2C) 算法通过三个关键创新实现了性能提升:采用回合制更新替代在线学习,引入优势函数精准评估行动价值,并使用均方误差优化价值网络。此外,算法通过策略熵正则项促进探索,有效防止策略过早收敛。本节将深入解析 A2C 的理论基础,详述其与演员-评论家和 REINFORCE 算法的核心差异,并使用 Keras 实现
AI-Frontiers5 天前
强化学习
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定原文:https://mp.weixin.qq.com/s/nfN0dWT3ZfDuW7ZGfaG6dA
山顶夕景6 天前
深度学习·大模型·强化学习
【RL】Scaling RL Compute for LLMs论文:The Art of Scaling Reinforcement Learning Compute for LLMs 链接:https://arxiv.org/abs/2510.13786
九年义务漏网鲨鱼8 天前
人工智能·大模型·强化学习·记忆模块
【Agentic RL 专题】二、Agentic RL——Memory🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。 ✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的
盼小辉丶9 天前
深度学习·keras·强化学习
Double DQN(DDQN)详解与实现在深度 Q 网络 (Deep Q-Network, DQN) 中,目标 Q 网络负责选择并评估每个动作,这会导致 Q 值被高估。为解决此问题,Double DQN (DDQN) 提出使用 Q 网络选择动作,而用目标 Q 网络评估动作。在本节中,我们将介绍 DDQN 的基本原理,并使用 Keras 实现 DDQN。
沉迷单车的追风少年10 天前
人工智能·深度学习·aigc·音视频·强化学习·视频生成·视频超分
Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2前言:在SeedVR之后,字节又开源了SeedVR2。相比于上一代的模型,在速度和性能上都有了非常大的提升,特别是单步的生成技术,极大降低了计算成本。本篇博客从论文和代码角度讲解《SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training》
信鑫10 天前
llm·agent·强化学习
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境引言: AI Agent 在执行复杂任务时,常需在浏览器、代码执行、文件系统之间切换。传统多沙箱方案面临环境割裂、数据搬运、鉴权复杂等问题。AIO Sandbox 通过一个 Docker 镜像整合所有能力,提供统一文件系统与鉴权,并支持镜像定制,提升了 Agent 任务执行与交付效率。
武子康16 天前
人工智能·机器人·强化学习·ros2·具身智能·仿真测试·a/b测试
AI研究-109-具身智能 机器人模型验证SOP流程详解|仿真 现实 回放 模板&理论训练出的模型需要经过严格的验证评估,并根据反馈不断改进。模拟器验证是模型策略测试中至关重要的第一步,它提供了最安全高效的验证方式。具体实施过程包括以下关键环节:
marsggbo16 天前
llm·强化学习·ppo·dpo·grpo
LLM 场景下的强化学习技术扫盲想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习(RL)在 LLM 中的核心任务,就是让模型学会生成“人类更喜欢”的回复。
2401_8414956417 天前
人工智能·python·算法·动态规划·强化学习·策略迭代·价值迭代
【强化学习】动态规划算法目录一、引言二、悬崖漫步环境三、策略迭代算法(一)策略评估(二)策略提升(三)策略迭代算法四、价值迭代算法
Python算法实战18 天前
人工智能·算法·面试·大模型·强化学习
腾讯送命题:手写多头注意力机制。。。最近这一两周不少公司已开启春招和实习招聘。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。
L.fountain18 天前
人工智能·强化学习
强化学习2.2 MDP实践——Frozen lakeFrozenLake 指 OpenAI Gym 库中的一个经典强化学习环境。初始化环境如下图所示,F表示正常的道路,H表示洞,G表示终点。
神州问学19 天前
强化学习
最高推理效率提升100%+|让满血DeepSeekV3.1在L40S上大展身手最近深度求索公司发布了他们最先进的大模型DeepSeekV3.1,作为重要升级版本,其以混合推理架构作为核心,实现了一个模型同时支持思考模式和非思考模式,让用户可以根据需求自由切换,平衡效率与深度,其核心优势明显。
Scc_hy20 天前
人工智能·深度学习·算法·强化学习·rl
强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluationpaper Link: Eligibility Traces for Off-Policy Policy Evaluation
山顶夕景20 天前
大模型·强化学习·dapo·vapo
【RL】DAPO的后续:VAPO算法VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
i.ajls22 天前
机器学习·强化学习·dqn
强化学习入门-1-CartPole-v1(DQN)本环境是OpenAI Gym提供的一个经典控制环境。官网链接:https://gymnasium.farama.org/environments/classic_control/cart_pole/
HyperAI超神经22 天前
人工智能·神经网络·机器学习·ai·强化学习·可控核聚变·托卡马克
AI预判等离子体「暴走」,MIT等基于机器学习实现小样本下的等离子体动力学高精度预测直接提起「托卡马克装置」,你可能觉得陌生。如果这样去介绍:托卡马克装置是通向最理想能源——核聚变能的重要技术之一, 或许会有「原来是你」的感悟。不过这里的「核能」并非核电站的核裂变,而是更高能、清洁、安全、几乎无放射废料的核聚变。
赋范大模型技术圈23 天前
人工智能·强化学习
11G显存DPO强化学习微调实战相信很多做电商的朋友都遇到过这些问题:用DPO强化学习让AI学会"什么是好的专业回答"简单说就是:给AI看大量的"好回答VS差回答"对比,让它自己学会判断什么样的回答更专业、更贴心。