强化学习

不去幼儿园2 天前
人工智能·python·算法·机器学习·强化学习
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
不去幼儿园9 天前
大数据·人工智能·python·算法·机器学习·强化学习
【SSL-RL】自监督强化学习: 好奇心驱动探索 (CDE)算法📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
字节跳动开源13 天前
开源·llm·强化学习
最高提升20倍吞吐量!豆包大模型团队发布全新 RLHF 框架,现已开源!文章来源|豆包大模型团队强化学习(RL)对大模型复杂推理能力提升有关键作用,然而,RL 复杂的计算流程以及现有系统局限性,也给训练和部署带来了挑战。传统的 RL/RLHF 系统在灵活性和效率方面存在不足,难以适应不断涌现的新算法需求,无法充分发挥大模型潜力。
DataFountain数据科学23 天前
大数据·人工智能·数学建模·文心一言·强化学习·数据竞赛
《文心一言插件设计与开发》赛题三等奖方案 | NoteTable本篇内容为2023 CCF 大数据与计算智能大赛《文心一言插件设计与开发》赛题三等奖获奖方案方案名称:NoteTable
人工智能培训咨询叶梓1 个月前
人工智能·深度学习·语言模型·自然语言处理·性能优化·强化学习·大模型微调
语言模型与人类反馈的深度融合:Chain of Hindsight技术人工智能咨询培训老师叶梓 转载标明出处语言模型在理解和执行指令方面取得了显著成功,但依赖人工标注数据的监督式微调需要大量标记数据,这不仅成本高昂,而且可能限制了模型识别和纠正负面属性或错误能力。另一方面,基于人类反馈的强化学习虽然能够从所有数据中学习,但需要学习一个奖励函数,这可能导致与人类价值观的不一致,并且优化过程极其复杂。来自加州大学伯克利分校的研究人员提出了一种名为Chain of Hindsight(CoH)的技术,旨在通过人类反馈进一步提升语言模型的性能,该方法超越了传统的监督式微调(SFT)
Gaoshu1012 个月前
强化学习·论文整理
◇【论文_20170828 v2】PPO 算法〔OpenAI〕: Proximal Policy Optimization Algorithms论文链接: https://arxiv.org/abs/1707.06347 补充资料: Simplified PPO-Clip Objective 推导
lijianhua_97122 个月前
人工智能·强化学习·aps
先进制造aps专题二十六 基于强化学习的人工智能ai生产排程aps模型简介基于强化学习的人工智能ai生产排程模型简介人工智能ai能不能做生产排程?答案是肯定的。ai的算法分两类,一类是学习,一类是搜索。
Gaoshu1012 个月前
笔记·强化学习
《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P2《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P1
Nicolas8932 个月前
强化学习·推荐算法·多臂老虎机·个性化推送系统·push系统·用户激活·文案优选
【算法业务】基于Multi-Armed Bandits的个性化push文案自动优选算法实践该工作属于多年之前的用户增长算法业务项目。在个性化push中,文案扮演非常重要的角色,是用户与push的商品之间的桥梁,文案是用户最直接能感知的信息。应该说在push产品信息之外,最重要的就是文案,直接能够影响push曝光的打开率。好的文案能够诱导用户点击打开。
机器白学2 个月前
强化学习
【强化学习系列】Gym库使用——创建自己的强化学习环境3:矢量化环境+奖励函数设计目录一、概述:不同模式环境选择二、矢量化环境1——每批次同一图片:标量离散动作空间1.修改reset——(1) 环境重置加载随机化
荒野火狐2 个月前
人工智能·深度学习·强化学习·dqn
【FreeRL】我的深度学习库构建思想代码实现在:https://github.com/wild-firefox/FreeRL 欢迎star
Nicolas8933 个月前
大模型·llm·强化学习·策略梯度·dqn·rl·智能体
【大模型理论篇】强化学习RL与大模型智能体大模型商业化,解决某类实际的业务问题,仅靠大模型本身其实存在很大的局限性,很多场景下不足以完全胜任真实业务需求【1】。
我是陈扣题3 个月前
人工智能·深度学习·rk3588·强化学习·模型部署·ppo·orangep
使用RKNN在Orange Pi 5 (RK3588s) 上部署推理PPO深度学习模型本博客皆在展示如何在Orange Pi 5 上使用 RKNN C API 使用C语言来进行模型的部署,不设计以及讨论PPO网络的实现以及细节
Nicolas8933 个月前
gpt·chatgpt·大模型·sft·强化学习·rlhf·人类反馈
【大模型理论篇】GPT系列预训练模型原理讲解GPT的全称是Generative Pre-Trained Transformer,以Transformer为基础模型(可以看Transformer的原理解析),先后迭代了GPT-1【1】,GPT-2【2】,GPT-3【3】、GPT3.5(InstructGPT)【10】、GPT4。参考技术细节的公开程度,本篇文章主要关注前四个版本,重点将会讲解前四种模型的演变趋势和各自特点。基于文本预训练的GPT-1,GPT-2,GPT-3三代模型采用的是同种架构,即以Transformer为核心结构的模型,不同的是模
kuan_li_lyg3 个月前
开发语言·人工智能·机器学习·matlab·机器人·自动驾驶·强化学习
MATLAB - 强化学习(Reinforcement Learning)强化学习是一种以目标为导向的计算方法,计算机通过与未知的动态环境交互来学习执行任务。这种学习方法能让计算机在没有人工干预和明确编程的情况下,做出一系列决策,使任务的累积奖励最大化。下图显示了强化学习场景的一般表示方法。
恋上钢琴的虫4 个月前
强化学习
基于强化学习算法玩CartPole游戏什么事CartPole游戏CartPole(也称为倒立摆问题)是一个经典的控制理论和强化学习的基础问题,通常用于测试和验证控制算法的性能。具体来说,它是一个简单的物理模拟问题,其目标是通过在一个平衡杆(倒立摆)上安装在小车(或称为平衡车)上的水平移动,使杆子保持竖直直立的状态。
芝士工具猿4 个月前
python·强化学习·图神经网络·grl
GRL-图强化学习这个Python文件agent.py实现了一个强化学习(Reinforcement Learning, RL)的智能体,用于在图环境(graph environment)中进行学习。以下是文件的主要部分的概述:
热血厨师长4 个月前
深度学习·算法·强化学习
狗都能看懂的Proximal Policy Optimization(PPO)PPO算法详解在讲解PPO算法前,我们需要明白On/Off policy的概念:之前所学习的Policy Gradient方法就是On-policy的,它的缺点就是每次更新都需要等Agent环境做互动,更新完之后,前一次互动经验又不能用了。这导致了Policy Gradient算法训练很耗时,时间都花在收集数据上。所以我们如果能将Policy Gradient变成Off-policy的算法,那之前互动的数据可以重复使用,大大提升了训练效率。
muyuu4 个月前
人工智能·机器学习·强化学习
【强化学习的数学原理】课程笔记--4(随机近似与随机梯度下降,时序差分方法)系列笔记: 【强化学习的数学原理】课程笔记–1(基本概念,贝尔曼公式) 【强化学习的数学原理】课程笔记–2(贝尔曼最优公式,值迭代与策略迭代) 【强化学习的数学原理】课程笔记–3(蒙特卡洛方法)
zoe22222266664 个月前
linux·c++·强化学习·ns3-gym·ns3·opengym
ns3-gym入门(一):代码结构和简单例子ns3-gym真的好难学,网上可以参考的例子也太少了,如果有用这个做路由的麻烦联系我交流一下吧,太痛苦了