权威的具身智能机器人学习路径

以下是经过业界验证、从入门到精通的完整路线图:


一、核心权威资源

https://www.coursera.org/resources/robotics-learning-roadmap?isNewUser=true

https://github.com/tianxingchen/Embodied-AI-Guide


二、完整学习路径(6个阶段,约12-18个月)

阶段0:基础准备(1-2个月)

数学基础

领域 重要度 核心内容
线性代数 ⭐⭐⭐⭐⭐ 矩阵运算、SVD分解、齐次变换、旋转矩阵/四元数
概率论 ⭐⭐⭐⭐⭐ 贝叶斯推理、高斯分布、卡尔曼滤波
微积分与优化 ⭐⭐⭐⭐ 梯度、链式法则、凸优化、梯度下降
几何学 ⭐⭐⭐⭐ 李群李代数、3D空间变换

编程与工具

技能 重要度 学习内容
Python ⭐⭐⭐⭐⭐ 基础语法、NumPy、OpenCV
PyTorch ⭐⭐⭐⭐⭐ 张量操作、自动微分、模型构建
Linux ⭐⭐⭐⭐⭐ 命令行、Shell脚本
C++ ⭐⭐⭐⭐ ROS2 C++开发
Git/Docker ⭐⭐⭐⭐ 版本控制、容器化部署

AI基础

  • 深度学习:CNN、RNN、Transformer架构
  • 计算机视觉:目标检测、图像分割
  • 大语言模型:LLM原理、Prompt Engineering

阶段1:机器人学基础(1-2个月)

核心内容

  • ROS2入门:节点、话题、TF变换、服务与动作
  • 机器人运动学:正运动学、逆运动学(DH参数法)
  • 动力学基础:牛顿-欧拉方程、拉格朗日力学
  • 仿真环境MuJoCo入门、Gazebo基础

实战项目:用MuJoCo控制机械臂完成桌面抓取

推荐资源:斯坦福机器人学导论(CS223A)


阶段2:计算机视觉与感知(1-2个月)

核心内容

  • 目标检测:YOLO系列(YOLOv8/v9/v10)
  • 图像分割:SAM(Segment Anything Model)、SAM2
  • 深度估计:单目/双目深度估计
  • 6D位姿估计:FoundationPose、SAM6D、BundleSDF
  • 3D视觉:点云处理(Open3D)、RGB-D融合

实战项目:视觉引导的机械臂抓取(从图像识别到抓取位姿估计)


阶段3:机器人学习------模仿学习(2-3个月)

这是目前最实用、最主流的具身智能方法

核心算法

方法 特点 适用场景
行为克隆(BC) 简单快速,直接学习state→action 简单任务
ACT 动作分块+Transformer,预测未来动作序列 精细操作
Diffusion Policy 扩散模型生成动作,处理多模态分布 复杂操作
3D Diffusion Policy 3D空间理解,结合点云信息 空间操作

推荐平台

  • LeRobot(Hugging Face开源):最友好的入门平台,支持真实机器人与仿真
  • RoboTwin 2.0:基于SAPIEN的仿真数据合成与策略训练平台,50个双臂任务

实战项目:用ACT/Diffusion Policy在仿真中完成"叠积木"或"抓取杯子"任务


阶段4:强化学习 + VLA大模型(2-3个月)

强化学习

  • 核心算法:PPO、SAC、TD3
  • 仿真平台:NVIDIA Isaac Lab(原Isaac Gym升级版),支持4096个并行环境训练
  • 关键挑战:Sim-to-Real迁移(域随机化、领域适应)

VLA(Vision-Language-Action)模型------具身智能最核心的技术方向

模型 机构 特点
RT-2/RT-X Google DeepMind 首个VLA,跨机器人通用策略
OpenVLA Stanford 开源7B参数VLA模型
π0 (Pi-Zero) Physical Intelligence 最新流匹配动作生成
Octo UC Berkeley 开源通用机器人策略
CogACT 清华 基于认知的VLA

实战项目:用OpenVLA完成"语言指令引导的物体抓取"


阶段5:Sim-to-Real与真实部署(2-3个月)

核心技术

  • 域随机化:随机化仿真参数(摩擦、质量、光照)
  • 系统辨识:精确标定仿真参数匹配真实世界
  • 数据采集闭环:真实机器人数据收集与模型微调
  • 部署优化:模型量化、TensorRT加速

推荐硬件平台

  • 入门级:SO-100机械臂(约3000元,LeRobot官方支持)
  • 进阶:Unitree G1人形机器人、宇树Go2四足机器人
  • 仿真为主:80%学习可在仿真中完成,无需购买硬件

实战项目:从Isaac Lab仿真训练到真实机械臂部署的完整流程


阶段6:前沿研究与持续进阶(持续)

2026年热门方向

  • 生成式世界模型(Diffusion-based World Models)
  • 灵巧手操作(Dexterous Manipulation)
  • 人形机器人全身运动控制
  • 多模态大模型与机器人融合
  • 触觉感知与电子皮肤

跟进渠道

  • 顶级会议:RSS、CoRL、ICRA、IROS、ICML、NeurIPS、CVPR
  • 社区:Lumina具身智能社区、GitHub Awesome系列
  • 博主:石麻日记(强烈推荐)、许华哲、穆尧等

三、关键学习资源汇总

类型 资源 说明
百科全书 Embodied-AI-Guide GitHub 10k+ Stars,最全面的中文知识库
开源平台 LeRobot Hugging Face官方,从仿真到真机
仿真环境 NVIDIA Isaac Lab / MuJoCo 大规模RL训练 / 快速原型
VLA模型 OpenVLA 开源可部署
数据集 RoboTwin 2.0 / Open X-Embodiment 仿真合成 / 真实跨机器人数据
课程 斯坦福CS223A、李宏毅强化学习 经典理论基础

四、学习建议

  1. 从仿真开始:80%的学习无需真实机器人,MuJoCo + LeRobot即可入门
  2. 先跑通再深入:不要一开始就纠结数学推导,先让代码跑起来
  3. 重视数据:具身智能的核心瓶颈是数据,学会采集、合成、处理数据
  4. 关注VLA:这是2026年最具落地价值的技术方向,优先掌握
  5. 加入社区:Lumina具身智能社区、GitHub开源项目,获取最新动态

总时间预估 :零基础到能独立完成项目约 12-18个月 ,有AI/编程基础可缩短至 6-9个月 。关键在于持续动手实践,而非只停留在理论。