强化学习

雪碧聊技术2 天前
监督学习·强化学习·无监督学习·半监督学习·机器学习的算法
机器学习的算法有哪些?🌟 欢迎来到AI奇妙世界! 🌟亲爱的开发者朋友们,大家好!👋我是人工智能领域的探索者与分享者,很高兴在CSDN与你们相遇!🎉 在这里,我将持续输出AI前沿技术、实战案例、算法解析等内容,希望能和大家一起学习、交流、成长!💡
山顶夕景3 天前
大模型·llm·agent·强化学习·智能体
【LLM】Kimi-K2模型架构(MuonClip 优化器等)大模型开源进展,kimi-k2量化版本发布,Unsloth 量化的 Kimi-K2 放出了,包括从 1.8bit 的 UD_IQ1 到 UD-Q5_K_XL等版本:https://github.com/unslothai/llama.cpp, 量化模型地址:https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main
ziix6 天前
人工智能·深度学习·神经网络·强化学习·图神经网络·gnn
多源信息融合智能投资【“图神经网络+强化学习“的融合架构】【低配显卡正常运行】本模型采用"图神经网络+强化学习"的融合架构,核心思路是通过多源信息融合进行智能投资决策,并实现决策可解释性。架构设计分为三个关键层次:
陈晨辰熟稳重7 天前
云计算·强化学习·资源调度
20250704-基于强化学习在云计算环境中的虚拟机资源调度研究随着云计算规模的持续扩大,数据中心虚拟机资源调度面临动态负载、异构资源适配及多目标优化等挑战。传统启发式算法在复杂场景下易陷入局部最优,而深度强化学习(DRL)凭借序贯决策能力为该问题提供了新路径。本研究以动态多目标组合优化理论为基础,结合CloudSimPy仿真框架与TensorFlow,构建“仿真-训练-验证”闭环调度系统,重点设计动态加权多目标奖励函数、时序建模网络及多进程并行训练策略,支持非DAG任务、长周期分块任务等复杂场景。实验表明,DRL算法在总完成时间(Makespan)、平均完成时间(A
阿里云大数据AI技术8 天前
大数据·人工智能·强化学习
训练效率提升100%!阿里云后训练全栈解决方案发布实录演讲人:魏博文(阿里云计算平台大数据AI解决方案总监)演讲主题:阿里云后训练解决方案活动:甲子光年围炉夜话-后训练技术闭门会
静心问道9 天前
人工智能·机器学习·强化学习·ai技术应用
OAIF:基于在线 AI 反馈的语言模型直接对齐温馨提示: 本篇文章已同步至"AI专题精讲" OAIF:基于在线 AI 反馈的语言模型直接对齐直接来自偏好(DAP)的对齐方法(如 DPO)近年来作为人类反馈强化学习(RLHF)的高效替代方案出现,这些方法无需训练单独的奖励模型。然而,DAP 方法中使用的偏好数据集通常是在训练前收集的,并且在训练过程中不会更新,因此反馈是完全离线的。此外,这些数据集中的回答往往来自于与当前被对齐模型不同的语言模型,而由于模型在训练过程中不断变化,对齐阶段不可避免地是离策略(off-policy)的。
静心问道12 天前
人工智能·强化学习·ai技术应用
CPO:对比偏好优化—突破大型语言模型在机器翻译中的性能边界温馨提示: 本篇文章已同步至"AI专题精讲" CPO:对比偏好优化—突破大型语言模型在机器翻译中的性能边界
许愿与你永世安宁14 天前
人工智能·算法·强化学习·梯度下降·随机近似
强化学习 (11)随机近似有两种方法。第一种方法很直接,即收集所有样本后计算平均值;但这种方法的缺点是,若样本是在一段时间内逐个收集的,我们必须等到所有样本都收集完毕。第二种方法可避免此缺点,因为它以增量迭代的方式计算平均值,来几个就计算几个,不需要等了。
辰尘_星启16 天前
人工智能·深度学习·机器学习·强化学习·梯度下降·反向传播
【机器学习】反向传播如何求梯度(公式推导)前期学习深度学习的时候,很多概念都是一笔带过,只是觉得它在一定程度上解释得通就行,但是在强化学习的过程中突然意识到,反向传播求梯度其实并不是一件简单的事情,这篇博客的目的就是要讲清楚反向传播是如何对特定的某一层求梯度,进而更新其参数的
前端工作日常18 天前
强化学习
我学习到的“伪勤奋”为什么熬夜刷题却考不过同桌?因为真正的学习高手都在“偷懒”。✅ 真勤奋:主动找难题做(即使会卡壳) ❌ 伪勤奋:重复抄写已掌握的内容
大千AI助手19 天前
人工智能·深度学习·算法·机器学习·强化学习·rlhf·人类反馈强化学习
RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
阿里云大数据AI技术20 天前
人工智能·开源·强化学习
Post-Training on PAI (3): 自研高性能强化学习框架PAI-ChatLearnPost-Training(即模型后训练)作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于 Pre-Training(即模型预训练),Post-Training 阶段对计算资源和数据资源需求更小,更易迭代,因此备受推崇。
r0ad21 天前
强化学习·deepseek
DeepSeek-R1技术突破:纯RL训练竟能激发大模型"反思"能力?开发|界面|引擎|交付|副驾——重写全栈法则:AI原生的倍速造应用流来自全栈程序员 nine 的探索与实践,持续迭代中。
s1ckrain25 天前
论文阅读·强化学习·多模态大模型·vlm
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning原文摘要研究背景现状:VLMs 已展现出强大的多模态理解和推理能力局限:当前主要受限于基于文本的推理过程
智能汽车人1 个月前
人工智能·机器人·强化学习
Robot---能打羽毛球的机器人Robot系列主要介绍一些比较有意思的机器人,前面的博客文章中也给读者朋友们展示了一些:《人形机器人---越来越像人了》
SunStriKE1 个月前
强化学习
veRL代码阅读-2.Ray看VeRL代码之前发现代码里主要使用了ray框架来进行调度和通信. 所以先对ray进行初步学习, 后续有空闲时间再细看下Ray的代码.
我爱C编程1 个月前
5g·matlab·强化学习·基站资源动态分配
基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真目录1.引言2.算法仿真效果演示3.数据集格式或算法参数简介4.算法涉及理论知识概要5G网络资源分配特点
微软开发者1 个月前
强化学习
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!投稿请联系:17278094563(微信号)
SunStriKE1 个月前
深度学习·强化学习·源码阅读
veRL代码阅读-1.论文原理主要以PPO为基础来学习VeRL的整体训练流程. 在PPO里主要有4个模型:训练步骤主要分成3步:Generation: Actor 在一批prompt样本上进行forward推理
Listennnn1 个月前
人工智能·强化学习
强化学习三大分类核心目标: 教会一个智能体(比如机器人、游戏AI、推荐系统)通过试错和奖励,学会在某个环境中完成特定任务的最佳策略。