强化学习

Philtell1 天前
强化学习
【强化学习基础概念】智能体的位置就是状态状态的集合对每个状态来说,可能发出的行为一个状态发出所有动作的集合。状态变换的过程
不去幼儿园2 天前
人工智能·python·算法·安全·机器学习·强化学习
【强化学习】可证明安全强化学习(Provably Safe RL)算法详细介绍📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
weixin_377634842 天前
开源·强化学习
【开源-AgentRL】创新强化学习 多项任务超闭源模型《AGENTRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework 》创新强化学习方式,采用策略交叉化与多任务优势归一化、人物混和训练等方式,在知识图谱问答、计算机指令执行等领域,超越了Claude、gpt-5等闭源模型,代码地址。
AI情报挖掘日志3 天前
agent·强化学习·多智能体协同·智能体·我的世界·人机协作·香港科技大学·aminer·人工智能技术突破·星露谷物语·aivilization·星露谷·具身只能·开放世界·社交智能
港科大Aivilization登场,打造“AI版星露谷物语”!解锁多智能体互动新玩法!如何让智能体像人类一样在复杂世界中学习社交技能 呢?近期,香港科技大学的Aivilization 项目给出了一个有趣的答案。这个项目以游戏的形式,让AI智能体在虚拟世界中工作、学习、赚钱,模拟人类活动!
青云交3 天前
java·机器学习·强化学习·模型融合·java 大数据·可控性·自然语言生成
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用实战嘿,亲爱的 Java 和 大数据爱好者们,大家好!我是CSDN(全区域)四榜榜首青云交!自然语言生成(NLG)技术正掀起人工智能领域的新一轮变革 —— 从智能客服自动应答,到新闻稿件批量生成,NLG 已深入内容生产、智能交互的每个角落。但当我们尝试让机器撰写符合特定风格的营销文案,或生成严谨的法律文书时,却常遭遇 “答非所问”“逻辑混乱” 的尴尬。如何让 AI 生成的文字既能 “妙笔生花”,又能精准契合业务需求?Java 大数据与机器学习的深度融合,正为这一难题提供破局之道。
山顶夕景7 天前
llm·强化学习·rl·奖励函数·reward
【RLVR】GRPO中奖励函数的设计逻辑1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
JJJJ_iii10 天前
人工智能·笔记·python·机器学习·强化学习
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用视频链接 吴恩达机器学习p137-144在上一篇文章中,我们使用火星车的例子介绍了强化学习。在该示例中,环境的状态空间(State Space)是离散的(Discrete),即智能体只能处于有限的、可数的几个状态之一(例如6个位置)。然而,现实世界中绝大多数有意义的强化学习问题,其状态空间都是连续的(Continuous)。
CoovallyAIHub11 天前
深度学习·计算机视觉·强化学习
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?多模态AI并非平等处理所有信息,其偏好暗藏玄机近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这些模型会更倾向于相信哪种信息?
盼小辉丶12 天前
深度学习·keras·强化学习
优势演员-评论家(Advantage Actor-Critic,A2C)算法详解与实现在强化学习领域,演员-评论家 (Actor-Critic) 方法融合策略优化与价值评估,是解决复杂决策问题的重要框架。基于这一基础,优势演员-评论家 (Advantage Actor-Critic, A2C) 算法通过三个关键创新实现了性能提升:采用回合制更新替代在线学习,引入优势函数精准评估行动价值,并使用均方误差优化价值网络。此外,算法通过策略熵正则项促进探索,有效防止策略过早收敛。本节将深入解析 A2C 的理论基础,详述其与演员-评论家和 REINFORCE 算法的核心差异,并使用 Keras 实现
AI-Frontiers13 天前
强化学习
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定原文:https://mp.weixin.qq.com/s/nfN0dWT3ZfDuW7ZGfaG6dA
山顶夕景13 天前
深度学习·大模型·强化学习
【RL】Scaling RL Compute for LLMs论文:The Art of Scaling Reinforcement Learning Compute for LLMs 链接:https://arxiv.org/abs/2510.13786
九年义务漏网鲨鱼15 天前
人工智能·大模型·强化学习·记忆模块
【Agentic RL 专题】二、Agentic RL——Memory🧔 这里是九年义务漏网鲨鱼,研究生在读,主要研究方向是人脸伪造检测,长期致力于研究多模态大模型技术;国家奖学金获得者,国家级大创项目一项,发明专利一篇,多篇论文在投,蓝桥杯国家级奖项、妈妈杯一等奖。 ✍ 博客主要内容为大模型技术的学习以及相关面经,本人已得到B站、百度、唯品会等多段多模态大模型的实习offer,为了能够紧跟前沿知识,决定写一个“从零学习 RL”主题的专栏。这个专栏将记录我个人的主观学习过程,因此会存在错误,若有出错,欢迎大家在评论区帮助我指出。除此之外,博客内容也会分享一些我在本科期间的
盼小辉丶16 天前
深度学习·keras·强化学习
Double DQN(DDQN)详解与实现在深度 Q 网络 (Deep Q-Network, DQN) 中,目标 Q 网络负责选择并评估每个动作,这会导致 Q 值被高估。为解决此问题,Double DQN (DDQN) 提出使用 Q 网络选择动作,而用目标 Q 网络评估动作。在本节中,我们将介绍 DDQN 的基本原理,并使用 Keras 实现 DDQN。
沉迷单车的追风少年17 天前
人工智能·深度学习·aigc·音视频·强化学习·视频生成·视频超分
Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2前言:在SeedVR之后,字节又开源了SeedVR2。相比于上一代的模型,在速度和性能上都有了非常大的提升,特别是单步的生成技术,极大降低了计算成本。本篇博客从论文和代码角度讲解《SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training》
信鑫17 天前
llm·agent·强化学习
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境引言: AI Agent 在执行复杂任务时,常需在浏览器、代码执行、文件系统之间切换。传统多沙箱方案面临环境割裂、数据搬运、鉴权复杂等问题。AIO Sandbox 通过一个 Docker 镜像整合所有能力,提供统一文件系统与鉴权,并支持镜像定制,提升了 Agent 任务执行与交付效率。
武子康24 天前
人工智能·机器人·强化学习·ros2·具身智能·仿真测试·a/b测试
AI研究-109-具身智能 机器人模型验证SOP流程详解|仿真 现实 回放 模板&理论训练出的模型需要经过严格的验证评估,并根据反馈不断改进。模拟器验证是模型策略测试中至关重要的第一步,它提供了最安全高效的验证方式。具体实施过程包括以下关键环节:
marsggbo24 天前
llm·强化学习·ppo·dpo·grpo
LLM 场景下的强化学习技术扫盲想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习(RL)在 LLM 中的核心任务,就是让模型学会生成“人类更喜欢”的回复。
2401_8414956424 天前
人工智能·python·算法·动态规划·强化学习·策略迭代·价值迭代
【强化学习】动态规划算法目录一、引言二、悬崖漫步环境三、策略迭代算法(一)策略评估(二)策略提升(三)策略迭代算法四、价值迭代算法
Python算法实战25 天前
人工智能·算法·面试·大模型·强化学习
腾讯送命题:手写多头注意力机制。。。最近这一两周不少公司已开启春招和实习招聘。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。
L.fountain25 天前
人工智能·强化学习
强化学习2.2 MDP实践——Frozen lakeFrozenLake 指 OpenAI Gym 库中的一个经典强化学习环境。初始化环境如下图所示,F表示正常的道路,H表示洞,G表示终点。