技术栈
强化学习
仙人掌_lz
17 小时前
python
·
算法
·
强化学习
·
策略梯度
·
rl
理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现
多智能体强化学习(MARL)将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争,或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。
仙人掌_lz
2 天前
python
·
算法
·
强化学习
·
dqn
·
rl
深入理解深度Q网络DQN:基于python从零实现
深度Q网络(DQN)是深度强化学习领域里一个超厉害的算法。它把Q学习和深度神经网络巧妙地结合在了一起,专门用来搞定那些状态空间维度特别高、特别复杂的难题。它展示了用函数近似来学习价值函数的超能力,因为传统的表格方法在面对状态空间特别大或者连续不断的状态空间时,就会因为太复杂而搞不定。
IT猿手
2 天前
深度学习
·
算法
·
matlab
·
无人机
·
强化学习
·
qlearning
·
无人机路径规划
基于 Q-learning 的城市场景无人机三维路径规划算法研究,可以自定义地图,提供完整MATLAB代码
随着无人机技术的不断发展,其在城市环境中的应用越来越广泛,如物流配送、航拍测绘、交通监控等。然而,城市场景具有复杂的建筑布局、密集的障碍物以及多变的飞行环境,给无人机的路径规划带来了巨大的挑战。传统的路径规划算法在三维复杂空间中往往难以满足实时性和最优性的要求。因此,研究一种有效的无人机三维路径规划算法具有重要的现实意义。Q-learning 算法作为一种强化学习方法,能够通过与环境的交互学习最优策略,为解决城市场景下无人机路径规划问题提供了新的思路。
Two summers ago
3 天前
论文阅读
·
人工智能
·
机器学习
·
llm
·
强化学习
arXiv2025 | TTRL: Test-Time Reinforcement Learning
https://github.com/PRIME-RL/TTRL📖导读:本篇博客有🦥精读版、🐇速读版及🤔思考三部分;精读版是全文的翻译,篇幅较长;如果你想快速了解论文方法,可以直接阅读速读版部分,它是对文章的通俗解读;思考部分是个人关于论文的一些拙见,欢迎留言指正、探讨。最佳排版建议使用电脑端阅读。
仙人掌_lz
4 天前
人工智能
·
ai
·
自然语言处理
·
embedding
·
强化学习
·
rl
·
bge
为特定领域微调嵌入模型:打造专属的自然语言处理利器
“学习不是装满一桶水,而是点燃一把火。” —— 叶芝我的博客主页: https://lizheng.blog.csdn.net
碣石潇湘无限路
5 天前
人工智能
·
经验分享
·
笔记
·
生活
·
openai
·
强化学习
【AI】基于生活案例的LLM强化学习(入门帖)
第一阶段:预训练 就好比教一个小孩先“读很多书”,让他获得基本的语言能力。对 LLM 来说,就是在海量文本上进行“预测下一个词”的训练,从而学到“语言的统计规律”。
人类发明了工具
6 天前
机器学习
·
强化学习
·
多臂老虎机
【强化学习】强化学习算法 - 多臂老虎机问题
你站在赌场前,有三台老虎机(臂 A 、 B 、 C A、B、C A、B、C),它们的中奖概率分别为 ( p A , p B , p C ) ( p_A, p_B, p_C ) (pA,pB,pC),但你并不知道具体数值。你有 100 次拉杆的机会,每次只能选择一台机器并拉动其拉杆,若中奖则获得 1 枚筹码,否则 0。你的目标是在这 100 次尝试中,尽可能多地赢得筹码。
我爱C编程
8 天前
matlab
·
强化学习
·
qlearning
·
电梯群控
基于Qlearning强化学习的电梯群控系统高效调度策略matlab仿真
目录1.算法仿真效果2.算法涉及理论知识概要2.1 Q-learning强化学习原理2.2 基于Q-learning的电梯群控系统建模
Scc_hy
13 天前
人工智能
·
python
·
深度学习
·
强化学习
强化学习_Paper_2017_Curiosity-driven Exploration by Self-supervised Prediction
paper Link: ICM: Curiosity-driven Exploration by Self-supervised Prediction GITHUB Link: 官方: noreward-rl
cloudy491
18 天前
python
·
强化学习
强化学习:历史基金净产值,学习最大化长期收益
通过历史基金净产值,学习买入、卖出或持有基金的最优策略,目标最大化长期收益,主要用于学习。通过环境变化选择不同的动作得到不一样的奖励,根据奖励最大选择最优的动作。例如:天气冷了,我们可以选择穿短袖或者长袖(动作),穿短袖会感觉冷(奖励),正常人会穿长袖会感觉合适(最优的动作)。
胡攀峰
18 天前
人工智能
·
大模型
·
llm
·
sft
·
强化学习
·
rlhf
·
指令微调
第12章 微调生成模型
在本章中,我们将以一个预训练文本生成模型为例,详细讲解微调(fine-tuning)的完整流程。微调是生成高质量模型的关键步骤,也是我们工具包中用于将模型适配到特定预期行为的重要工具。通过微调,我们可以让模型适配特定的数据集或领域。
豆芽819
19 天前
人工智能
·
深度学习
·
机器学习
·
强化学习
强化学习(Reinforcement Learning, RL)和深度学习(Deep Learning, DL)
强化学习(Reinforcement Learning, RL)和深度学习(Deep Learning, DL)是人工智能领域两个重要的研究方向,虽然二者可以结合(如深度强化学习),但其核心思想、目标和应用场景存在本质区别。
qq_43133135
20 天前
windows
·
vscode
·
unity
·
强化学习
Unity ML-Agents + VScode 环境搭建 Windows
先去官网下载Unity Hub,然后安装在D盘就可以了,你需要手机上安装一个Unity Connect进行账号注册。
IceTeapoy
20 天前
人工智能
·
算法
·
强化学习
【RL】强化学习入门(二):Q-Learning算法
上文提出了强化学习问题的定义,核心问题是:智能体的决策是怎样产生的呢?传统方法是提前制定固定规则(如棋类套路),或者将整个环境建模预处理最优解。像考试前背下所有题目答案,但遇到新题就会失败。
MocapLeader
22 天前
机器人
·
ros
·
强化学习
·
多机器人协同
·
协同搬运
新型多机器人协作运输系统,轻松应对复杂路面
受到鱼类、鸟类和蚂蚁等微小生物体协作操纵的启发,研究人员开发了多机器人协作运输系统(Multirobot Cooperative Transportation Systems,MRCTS)运输单个机器人无法处理的重型超大物体,可用于搜救行动、灾难响应、军事物资运输等场景。现有MRCTS主要在平坦路面上运输有效载荷,很少或根本无法在不平坦的道路上运输物体。
神经星星
22 天前
人工智能
·
开源
·
强化学习
多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务
如今,主体驱动生成 (subject-driven generation) 已经广泛应用于图像生成领域,但其在数据可扩展性和主体扩展性方面仍面临诸多挑战,例如从单主体数据集转向多主体并对其进行扩展尤为困难;目前的热门研究方向是单主体,在面对多主体生成任务时表现欠佳。
Q同学
22 天前
llm
·
nlp
·
强化学习
字节ReTool:大模型也要学会善于利用工具
尽管强化学习训练的推理模型在纯文本推理任务中表现突出,但在需要精确计算或符号操作的结构化问题上仍显不足。为此,本文提出 ReTool 框架,通过将实时代码执行与自然语言推理交叉集成,并采用结果驱动的强化学习策略,让模型自主学习何时、如何调用计算工具。训练过程分为两阶段:一是利用合成数据进行代码增强的监督微调,二是在沙箱环境中以任务正确性为奖励,迭代优化工具使用策略。在国际数学竞赛基准 AIME 上的实验显示,ReTool 在训练效率和最终准确率上均大幅领先于纯文本强化学习和多种竞争基线,并在模型中观察到诸
IceTeapoy
23 天前
人工智能
·
算法
·
强化学习
【RL】强化学习入门(一):Q-Learning算法
其实是强化学习入门第一部分~从问题定义到 Q-Learning 算法的提出。强化学习是一种学习如何从状态映射到动作以最大化最终奖励的学习机制。智能体需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。
Tech Synapse
23 天前
python
·
机器人
·
pygame
·
强化学习
迷宫求解机器人:基于Pygame与Q-learning的强化学习实战教程
在人工智能的浩瀚宇宙中,强化学习犹如一颗璀璨的新星,它让机器具备了类似生物体的学习能力。今天,我们将亲手打造一位具备环境感知能力的智能体——迷宫求解机器人。它将在虚拟的迷宫世界中探索、学习,最终找到通往自由的道路。这不仅是一场代码与算法的交响,更是对人类智能奥秘的一次致敬。
Q同学
24 天前
llm
·
nlp
·
强化学习
OpenAI发布o3和o4-mini模型:全面工具访问的最强大模型
几天前,OpenAI 发布了最新的o3和o4-mini模型,这些推理模型能够主动使用和结合ChatGPT内的所有工具(包括网页搜索、上传文件分析、使用Python分析数据、深入推理视觉输入,甚至生成图像)。这些模型经过训练,能够推理何时以及如何使用工具,以快速生成详细且深思熟虑的答案。o3和o4-mini在学术基准测试和实际任务中的表现大大增强,树立了智能性和实用性的新标准。