强化学习

武汉唯众智创1 天前
人工智能·强化学习·高职
高职人工智能专业实训课之“强化学习”强化学习是人工智能领域中的一项重要技术,它通过智能体与环境之间的交互来学习如何做出最优决策。为了满足高职院校对强化学习专业实训课程的需求,唯众人工智能教学实训凭借其前沿的教育技术平台,特别是GPU虚拟化技术,为学生提供了高效、便捷的强化学习实训环境。
内卷焦虑人士3 天前
笔记·强化学习·gym
【笔记】强化学习,gym的命令行图形化界面适配最后用matplotlib画出来看
荒野火狐4 天前
强化学习·多进程·multiprocessing·pipe
【深度强化学习】如何使用多进程(multiprocessing、pipe)来加速训练实验平台:cpu:i7-10870 8核16线程(intel处理器采用超线程技术,一个核心有两个线程,故物理上是8核,逻辑核心是16核) pytorch 版本:2.2.2+cu121 numpy 版本:1.24.3 gym 版本:0.26.2 模块:
槿花Hibiscus8 天前
强化学习
强化学习专题:强化学习知识梳理(一)2024/6/23:前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。
Gaoshu10111 天前
笔记·强化学习
# [0619] Task01 绪论、马尔可夫过程、动态规划 【OpenAI_Gym 库】最新版PDF下载 地址:https://github.com/datawhalechina/easy-rl/releases 国内地址(推荐国内读者使用): 链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a
初心不忘产学研15 天前
人工智能·深度学习·aigc·强化学习·risc-v·边缘ai·边缘智能
边缘微型AI的宿主?—— RISC-V芯片RISC-V(发音为 "risk-five")是一种基于精简指令集计算(RISC)原则的开放源代码指令集架构(ISA)。它由加州大学伯克利分校在2010年首次发布,并迅速获得了全球学术界和工业界的广泛关注和支持。
大数据AI人工智能培训专家培训讲师叶梓17 天前
人工智能·机器学习·ai·语言模型·自然语言处理·强化学习·翻译
跨语言翻译的突破:使用强化学习与人类反馈提升机器翻译质量在人工智能领域,知识问答系统的性能优化一直是研究者们关注的焦点。现有的系统通常面临知识更新频繁、检索成本高、以及用户提问多样性等挑战。尽管采用了如RAG(Retrieval-Augmented Generation)和微调等技术,但它们各有利弊,例如RAG在知识内容多的情况下检索成本高,而微调则面临算力成本高和训练效果不稳定的问题。
Papicatch22 天前
人工智能·python·机器学习·强化学习·aiphago
人工智能强化学习:核心内容、社会影响及未来展望欢迎来到 Papicatch的博客文章目录🐋引言🐋强化学习的核心内容🦈强化学习基本概念🐋强化学习算法
寸_铁24 天前
数据库·人工智能·redis·深度学习·机器学习·缓存·强化学习
【Redis】解决 Redis 运行在 Protected Mode 下的 DENIED 错误:消除 Redis 受保护模式的完美方案大家好 我是寸铁👊 总结了一篇【Redis】解决 Redis 运行在 Protected Mode 下的 DENIED 错误:消除 Redis 受保护模式的完美方案✨ 喜欢的小伙伴可以点点关注 💝
华为云开发者联盟1 个月前
强化学习·mindspore·华为云开发者联盟·a2c算法
一文教你在MindSpore中实现A2C算法训练本文分享自华为云社区《MindSpore A2C 强化学习》,作者:irrational。Advantage Actor-Critic (A2C)算法是一个强化学习算法,它结合了策略梯度(Actor)和价值函数(Critic)的方法。A2C算法在许多强化学习任务中表现优越,因为它能够利用价值函数来减少策略梯度的方差,同时直接优化策略。
AIGCnn1 个月前
人工智能·强化学习·isaac sim
Isaac Lab CartPole实验(摄像头版本)Isaac Lab安装可以看这个教程:http://t.csdnimg.cn/SN7duhttp://t.csdnimg.cn/SN7du
silicon1 个月前
机器人·强化学习
基于Transformer的决策智能 第一篇 Decision Intelligence初探自从特斯拉证明在自动驾驶场景端到端的深度学习模型能够替代人进行决策,一场巨大的技术变革将要到来。我想通过一些实验来建立自己对决策智能的初步认知。
Robot_Yue1 个月前
人工智能·深度学习·神经网络·卷积神经网络·强化学习·注意力机制·网络优化与正则化
神经网络与深度学习-简要入门参考引用背景与定义特征表示方式结论背景定义与关键问题深度学习模型端到端学习机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法
知来者逆1 个月前
人工智能·lstm·语音识别·强化学习·xlstm
xLSTM——解析扩展长短期记忆的网络算法与应用二十多年来, 塞普·霍赫赖特 创举 长短期记忆 (LSTM) 架构在许多深度学习突破和实际应用中发挥了重要作用。从生成自然语言到为语音识别系统提供动力,LSTM 一直是人工智能革命背后的驱动力。
高颜值的殺生丸2 个月前
强化学习
PPO-KL散度近端策略优化玩cartpole游戏其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能给太大,否则惩罚力度太大,action model 和ref model产生的action其实分布的差距并不太大
晓shuo2 个月前
人工智能·强化学习·马尔可夫奖励过程
强化学习——马尔可夫奖励过程的理解在马尔可夫过程的基础上加入奖励函数 r r r 和折扣因子 γ \gamma γ,就可以得到马尔可夫奖励过程(Markov reward process)。一个马尔可夫奖励过程由 < S , P , r , γ > <S,P,r,\gamma > <S,P,r,γ> 构成,各个组成元素的含义如下:
高颜值的殺生丸2 个月前
强化学习·ppo
PPO近端策略优化玩cartpole游戏这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像,但是模型是actor critic 架构,on-policy转换成off-policy,使用剪切策略来限制策略的更新幅度,off-policy的好处是策略更新快,PPO的优化目标是最大化策略的期望回报,同时避免
高颜值的殺生丸2 个月前
强化学习·策略梯度
策略梯度玩 cartpole 游戏,强化学习代替PID算法控制平衡杆cartpole游戏,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态,策略函数使用一个两层的简单神经网络,输入状态有4个,车位置,车速度,杆角度,杆速度,输出action为左移动或右移动,输入状态发现至少要给3个才能稳定一会儿,给2个完全学不明白,给4个能学到很稳定的policy
可姆可汗2 个月前
强化学习
Paper Note | Efficient DRL-Based Congestion Control With Ultra-Low Overhead深度强化学习能够用于网络拥塞控制决策中,但是之前的DRL方案耗时且占用了很多CPU资源。这篇文章提出了一种低开销的DRL方案,实现细粒度的包级别控制。