强化学习

大千AI助手2 天前
人工智能·深度学习·神经网络·llm·强化学习·verl·字节跳动seed
VeRL:强化学习与大模型训练的高效融合框架本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
zzzyzh4 天前
强化学习
RL【3】:Bellman Optimality Equation本系列文章主要用于记录 B站 赵世钰老师的【强化学习的数学原理】的学习笔记,关于赵老师课程的具体内容,可以移步: B站视频:【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】 GitHub 课程资料:Book-Mathematical-Foundation-of-Reinforcement-Learning
deepdata_cn8 天前
强化学习
强化学习框架(AReaL)AReaL(Ant Reasoning RL)是由蚂蚁技术研究院与清华大学交叉信息研究院联合开发的开源强化学习框架,专注于提升大型推理模型(LRM)的复杂逻辑推理能力。通过完全开放的技术生态,让开发者以极低门槛复现、优化甚至超越当前SOTA模型,尤其在数学推理等长链逻辑任务中展现出显著优势。
计算机sci论文精选11 天前
人工智能·深度学习·机器学习·计算机视觉·机器人·强化学习·cvpr
CVPR 强化学习模块深度分析:连多项式不等式+自驾规划关注gongzhonghao【CVPR顶会精选】今天想和大家聊聊极具潜力的强化学习。它正处于技术突破爆发期,无论是理论创新还是工程落地,都有巨大探索空间。同时,作为跨领域的 “技术桥梁”,强化学习在自动驾驶、机器人、金融、游戏等需要动态决策的场景广泛应用,既能满足产业需求,又备受多领域关注。
Baihai_IDP13 天前
人工智能·llm·强化学习
强化学习的“GPT-3 时刻”即将到来编者按: 强化学习能否像 GPT-3 改变自然语言处理那样,通过大规模扩展实现质的飞跃?为什么强化学习至今仍困在“先预训练,再微调”的传统模式中?为什么即使是最先进的 RL 模型,一旦脱离训练环境就变得如此脆弱?
@LijinLiu13 天前
计算机视觉·强化学习
强化学习基本实操强化学习(Reinforcement Learning, RL)是近年来人工智能领域的热门方向,而 Stable-Baselines3 是目前最常用、最友好的 RL 库之一。本文带你快速上手,从安装到训练智能体,并尝试不同环境。
龙腾亚太20 天前
机器学习·无人机·强化学习·深度强化学习
基于深度强化学习的无人机自主感知−规划−控制策略作者:吕茂隆, 丁晨博, 韩浩然, 段海滨摘要:近年来, 随着深度强化学习(DRL)方法快速发展, 其在无人机(UAV)自主导航上的应用也受到越来越广泛的关注. 然而, 面对复杂未知的环境, 现存的基于DRL的UAV自主导航算法常受限于对全局信息的依赖和特定训练环境的约束, 极大地限制了其在各种场景中的应用潜力. 为解决上述问题, 提出多尺度输入用于平衡感受野与状态维度, 以及截断操作来使智能体能够在扩张后的环境中运行. 此外, 构建自主感知−规划−控制架构, 赋予UAV在多样复杂环境中自主导航的能力.
聚客AI21 天前
人工智能·llm·强化学习
🧩万亿级Token训练!解密大模型预训练算力黑洞与RLHF对齐革命本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。人工智能大模型(如GPT、LLaMA等)已成为推动AI产业变革的核心引擎。其价值在于通过海量数据预训练提取通用知识,大幅提升模型泛化能力,降低微调成本。然而,大模型的开发涉及复杂的训练流程、高效的推理优化、激烈的市场竞争以及底层基础设施的严峻挑战。今天我将从大模型训练层、推理层、市场洞察及基础设施层四个维度,系统解析技术细节,希望对你们有所帮助,记得点个小红心支持一下。
nju_spy22 天前
强化学习·南京大学·alphago·蒙特卡洛树搜索·策略网络·价值网络·随机梯度算法
王树森深度强化学习DRL(三)围棋AlphaGo+蒙特卡洛深度强化学习(5_5):AlphaGo_哔哩哔哩_bilibili蒙特卡洛 Monte Carlo_哔哩哔哩_bilibili
DuanGe1 个月前
强化学习
Chrome浏览器页面中跳转到IE浏览器页面本文所示脚本文件:openIE.zip使用管理员权限运行 openIE.reg 文件,将 openIE 协议导入注册表使其生效。
阿里云大数据AI技术1 个月前
人工智能·llm·强化学习
基于PAI-ChatLearn的GSPO强化学习实践近期,阿里通义千问团队创新性提出了 GSPO 算法,PAI-ChatLearn 框架第一时间支持并复现了GSPO的强化学习训练过程,本文将介绍在 PAI 平台复现 GSPO 的最佳实践。
代码哲学系1 个月前
java·强化学习
第一阶段:Java基础入门④Java核心API💡 学习目标:掌握Java核心API的使用,包括String类、包装类、日期时间API、常用工具类等
防搞活机1 个月前
笔记·深度学习·机器学习·强化学习
强化学习笔记:从Q学习到GRPO推荐学习huggingface的强化学习课程,全面了解强化学习的发展史。 以下是个人笔记,内容不一定完整,有些是个人理解。
我爱C编程1 个月前
matlab·强化学习·qlearning·三维路径规划
基于Qlearning强化学习的水下无人航行器三维场景路径规划与避障系统matlab性能仿真目录1.引言2.算法仿真效果演示3.数据集格式或算法参数简介4.算法涉及理论知识概要4.1 强化学习基本框架
有梦想的攻城狮1 个月前
强化学习·q-learning
Q-Learning详解:从理论到实践的全面解析Q-Learning是一种无模型(Model-Free)的强化学习算法,属于**基于值迭代(Value Iteration)的方法。其核心目标是通过构建Q表(状态-动作值函数表)来存储环境认知,并指导智能体在每个状态下选择最优动作。Q-Learning采用时间差分(TD)**方法,融合了蒙特卡洛的样本效率和动态规划的数学严谨性,适用于未知环境的决策优化问题。
威化饼的一隅1 个月前
大模型·llm·强化学习·rlhf·dpo
【多模态】DPO学习笔记RLHF需要使用人标注的偏好数据对,先训练一个reward model,然后再让reward model和LLM做强化学习 【1】SFT训练LLM: 使用目标任务的训练数据训练得到的模型记为 π S F T \pi^{SFT} πSFT 【2】训练reward model: 使用目标任务的另一份数据 x x x输入 π S F T \pi^{SFT} πSFT,每份数据得到2个输出,记为 ( y 1 , y 2 ) ∼ π S F T ( y ∣ x ) (y_1,y_2) \sim \pi^{SFT}(
雪碧聊技术1 个月前
监督学习·强化学习·无监督学习·半监督学习·机器学习的算法
机器学习的算法有哪些?🌟 欢迎来到AI奇妙世界! 🌟亲爱的开发者朋友们,大家好!👋我是人工智能领域的探索者与分享者,很高兴在CSDN与你们相遇!🎉 在这里,我将持续输出AI前沿技术、实战案例、算法解析等内容,希望能和大家一起学习、交流、成长!💡
山顶夕景1 个月前
大模型·llm·agent·强化学习·智能体
【LLM】Kimi-K2模型架构(MuonClip 优化器等)大模型开源进展,kimi-k2量化版本发布,Unsloth 量化的 Kimi-K2 放出了,包括从 1.8bit 的 UD_IQ1 到 UD-Q5_K_XL等版本:https://github.com/unslothai/llama.cpp, 量化模型地址:https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main
ziix2 个月前
人工智能·深度学习·神经网络·强化学习·图神经网络·gnn
多源信息融合智能投资【“图神经网络+强化学习“的融合架构】【低配显卡正常运行】本模型采用"图神经网络+强化学习"的融合架构,核心思路是通过多源信息融合进行智能投资决策,并实现决策可解释性。架构设计分为三个关键层次:
陈晨辰熟稳重2 个月前
云计算·强化学习·资源调度
20250704-基于强化学习在云计算环境中的虚拟机资源调度研究随着云计算规模的持续扩大,数据中心虚拟机资源调度面临动态负载、异构资源适配及多目标优化等挑战。传统启发式算法在复杂场景下易陷入局部最优,而深度强化学习(DRL)凭借序贯决策能力为该问题提供了新路径。本研究以动态多目标组合优化理论为基础,结合CloudSimPy仿真框架与TensorFlow,构建“仿真-训练-验证”闭环调度系统,重点设计动态加权多目标奖励函数、时序建模网络及多进程并行训练策略,支持非DAG任务、长周期分块任务等复杂场景。实验表明,DRL算法在总完成时间(Makespan)、平均完成时间(A