动手强化学习之马尔可夫决策(机器人篇)

1 马尔可夫决策过程

马尔可夫决策过程(Markov Decision Process, MDP)是一种数学框架,用于建模智能体(agent)在随机环境中做决策的问题。它假设环境的状态转换具有马尔可夫性质,即未来的状态只依赖于当前状态和智能体采取的动作,而与过去的历史无关。MDP 是强化学习(Reinforcement Learning, RL)的基础模型,许多强化学习算法和理论都建立在 MDP 之上。

2 部分可观测马尔可夫决策过程

(Partially Observable Markov Decision Process, POMDP)

在单智能体的强化学习中,如果环境的状态不能完全被智能体观测到(例如,机器人传感器有噪声或视野受限),问题就被建模为 POMDP。POMDP 假设环境的动态满足马尔可夫性质(即下一状态仅依赖于当前状态和动作),但智能体只能通过部分观测(observation)间接推测状态。

3 Dec-POMDP(去中心化部分可观测马尔可夫决策过程)

在多智能体场景中,例如多个机器人协作完成任务,每个智能体都有自己的观测和动作,无法直接知道其他智能体的状态或动作。这种情况被建模为 Dec-POMDP。Dec-POMDP 扩展了 POMDP,考虑多个智能体在去中心化(无中央控制器)的情况下如何协作或竞争。

相关推荐
feasibility.4 小时前
ROS2+Gazebo+VLM服务:纯仿真环境下的具身智能闭环系统| 大脑-小脑分离控制
人工智能·机器人·ros·仿真·具身智能·vla·vlm
weilaieqi15 小时前
展厅讲解导航机器人选购指南
机器人
万俟淋曦6 小时前
【论文速递】2026年第02周(Jan-04-10)(Robotics/Embodied AI/LLM)
人工智能·深度学习·机器人·大模型·论文·robotics·具身智能
万俟淋曦9 小时前
【论文速递】2026年第01周(Dec-28-Jan-03)(Robotics/Embodied AI/LLM)
人工智能·ai·机器人·大模型·论文·robotics·具身智能
小楼v10 小时前
本周AI圈炸了(4.13 - 4.19):AI纳入教师资格考核、GPT-6来了、Claude反杀、机器人跑赢了人类
人工智能·gpt·ai·机器人·热点资讯·教资·opus 4.7
硅谷秋水10 小时前
世界动作模型:具身智能的下一前沿
大数据·人工智能·深度学习·计算机视觉·语言模型·机器人
加成BUFF12 小时前
《机器人学》MATLAB 机器人工具箱 应用指南二
matlab·机器人·机器人工具箱
weixin_4296302613 小时前
3.47 室内环境下全向成像孪生神经网络机器人定位的实验评价
人工智能·神经网络·机器人
Rocktech_ruixun15 小时前
智慧餐饮新机遇:全场景无人化升级,破解餐饮业降本增效难题
人工智能·嵌入式硬件·ai·机器人
牛肉在哪里1 天前
ros2 从零开始27 编写广播C++
开发语言·c++·机器人