以下是经过业界验证、从入门到精通的完整路线图:
一、核心权威资源
https://www.coursera.org/resources/robotics-learning-roadmap?isNewUser=true
https://github.com/tianxingchen/Embodied-AI-Guide
二、完整学习路径(6个阶段,约12-18个月)
阶段0:基础准备(1-2个月)
数学基础
| 领域 | 重要度 | 核心内容 |
|---|---|---|
| 线性代数 | ⭐⭐⭐⭐⭐ | 矩阵运算、SVD分解、齐次变换、旋转矩阵/四元数 |
| 概率论 | ⭐⭐⭐⭐⭐ | 贝叶斯推理、高斯分布、卡尔曼滤波 |
| 微积分与优化 | ⭐⭐⭐⭐ | 梯度、链式法则、凸优化、梯度下降 |
| 几何学 | ⭐⭐⭐⭐ | 李群李代数、3D空间变换 |
编程与工具
| 技能 | 重要度 | 学习内容 |
|---|---|---|
| Python | ⭐⭐⭐⭐⭐ | 基础语法、NumPy、OpenCV |
| PyTorch | ⭐⭐⭐⭐⭐ | 张量操作、自动微分、模型构建 |
| Linux | ⭐⭐⭐⭐⭐ | 命令行、Shell脚本 |
| C++ | ⭐⭐⭐⭐ | ROS2 C++开发 |
| Git/Docker | ⭐⭐⭐⭐ | 版本控制、容器化部署 |
AI基础
- 深度学习:CNN、RNN、Transformer架构
- 计算机视觉:目标检测、图像分割
- 大语言模型:LLM原理、Prompt Engineering
阶段1:机器人学基础(1-2个月)
核心内容
推荐资源:斯坦福机器人学导论(CS223A)
阶段2:计算机视觉与感知(1-2个月)
核心内容
- 目标检测:YOLO系列(YOLOv8/v9/v10)
- 图像分割:SAM(Segment Anything Model)、SAM2
- 深度估计:单目/双目深度估计
- 6D位姿估计:FoundationPose、SAM6D、BundleSDF
- 3D视觉:点云处理(Open3D)、RGB-D融合
阶段3:机器人学习------模仿学习(2-3个月)
这是目前最实用、最主流的具身智能方法。
核心算法
| 方法 | 特点 | 适用场景 |
|---|---|---|
| 行为克隆(BC) | 简单快速,直接学习state→action | 简单任务 |
| ACT | 动作分块+Transformer,预测未来动作序列 | 精细操作 |
| Diffusion Policy | 扩散模型生成动作,处理多模态分布 | 复杂操作 |
| 3D Diffusion Policy | 3D空间理解,结合点云信息 | 空间操作 |
推荐平台
- LeRobot(Hugging Face开源):最友好的入门平台,支持真实机器人与仿真
- RoboTwin 2.0:基于SAPIEN的仿真数据合成与策略训练平台,50个双臂任务
实战项目:用ACT/Diffusion Policy在仿真中完成"叠积木"或"抓取杯子"任务
阶段4:强化学习 + VLA大模型(2-3个月)
强化学习
- 核心算法:PPO、SAC、TD3
- 仿真平台:NVIDIA Isaac Lab(原Isaac Gym升级版),支持4096个并行环境训练
- 关键挑战:Sim-to-Real迁移(域随机化、领域适应)
VLA(Vision-Language-Action)模型------具身智能最核心的技术方向
| 模型 | 机构 | 特点 |
|---|---|---|
| RT-2/RT-X | Google DeepMind | 首个VLA,跨机器人通用策略 |
| OpenVLA | Stanford | 开源7B参数VLA模型 |
| π0 (Pi-Zero) | Physical Intelligence | 最新流匹配动作生成 |
| Octo | UC Berkeley | 开源通用机器人策略 |
| CogACT | 清华 | 基于认知的VLA |
实战项目:用OpenVLA完成"语言指令引导的物体抓取"
阶段5:Sim-to-Real与真实部署(2-3个月)
核心技术
- 域随机化:随机化仿真参数(摩擦、质量、光照)
- 系统辨识:精确标定仿真参数匹配真实世界
- 数据采集闭环:真实机器人数据收集与模型微调
- 部署优化:模型量化、TensorRT加速
推荐硬件平台
- 入门级:SO-100机械臂(约3000元,LeRobot官方支持)
- 进阶:Unitree G1人形机器人、宇树Go2四足机器人
- 仿真为主:80%学习可在仿真中完成,无需购买硬件
实战项目:从Isaac Lab仿真训练到真实机械臂部署的完整流程
阶段6:前沿研究与持续进阶(持续)
2026年热门方向
- 生成式世界模型(Diffusion-based World Models)
- 灵巧手操作(Dexterous Manipulation)
- 人形机器人全身运动控制
- 多模态大模型与机器人融合
- 触觉感知与电子皮肤
跟进渠道
- 顶级会议:RSS、CoRL、ICRA、IROS、ICML、NeurIPS、CVPR
- 社区:Lumina具身智能社区、GitHub Awesome系列
- 博主:石麻日记(强烈推荐)、许华哲、穆尧等
三、关键学习资源汇总
| 类型 | 资源 | 说明 |
|---|---|---|
| 百科全书 | Embodied-AI-Guide | GitHub 10k+ Stars,最全面的中文知识库 |
| 开源平台 | LeRobot | Hugging Face官方,从仿真到真机 |
| 仿真环境 | NVIDIA Isaac Lab / MuJoCo | 大规模RL训练 / 快速原型 |
| VLA模型 | OpenVLA | 开源可部署 |
| 数据集 | RoboTwin 2.0 / Open X-Embodiment | 仿真合成 / 真实跨机器人数据 |
| 课程 | 斯坦福CS223A、李宏毅强化学习 | 经典理论基础 |
四、学习建议
- 从仿真开始:80%的学习无需真实机器人,MuJoCo + LeRobot即可入门
- 先跑通再深入:不要一开始就纠结数学推导,先让代码跑起来
- 重视数据:具身智能的核心瓶颈是数据,学会采集、合成、处理数据
- 关注VLA:这是2026年最具落地价值的技术方向,优先掌握
- 加入社区:Lumina具身智能社区、GitHub开源项目,获取最新动态
总时间预估 :零基础到能独立完成项目约 12-18个月 ,有AI/编程基础可缩短至 6-9个月 。关键在于持续动手实践,而非只停留在理论。