文章目录
-
- [📋 目录](#📋 目录)
- [一、领域认知:机器人 vs 具身智能](#一、领域认知:机器人 vs 具身智能)
- 二、是否一定需要硬件入门?
- 三、领域岗位分类
-
- [🔥 算法类(最适合你背景)](#🔥 算法类(最适合你背景))
- [⚙️ 工程类](#⚙️ 工程类)
- [🔩 硬件/机械类](#🔩 硬件/机械类)
- [📊 行业数据](#📊 行业数据)
- 四、核心知识图谱
- 五、分阶段学习路线
- 六、开源大模型汇总
-
- [🔥 主流开源具身/机器人大模型(2025-2026)](#🔥 主流开源具身/机器人大模型(2025-2026))
- 开源框架
- 低成本开源硬件项目(想玩硬件可以选这个)
- 七、优质开源教程/课程
- 八、推荐仿真平台
- 九、入门项目实践建议
-
- [🟢 初级项目(1个月内完成)](#🟢 初级项目(1个月内完成))
- [🟡 中级项目(2-3个月)](#🟡 中级项目(2-3个月))
- [🔴 高级项目(3个月+)](#🔴 高级项目(3个月+))
- 十、学习资源汇总
- [🎯 给你的转行进阶建议](#🎯 给你的转行进阶建议)
- [⏱️ 时间表参考](#⏱️ 时间表参考)
- 参考来源
读者背景:已有大语言模型训练推理经验、Agent应用开发经验,想转机器人/具身智能领域
📋 目录
- [一、领域认知:机器人 vs 具身智能](#一、领域认知:机器人 vs 具身智能)
- 二、是否一定需要硬件入门?
- 三、领域岗位分类
- 四、核心知识图谱
- 五、分阶段学习路线
- 六、开源大模型汇总
- 七、优质开源教程/课程
- 八、推荐仿真平台
- 九、入门项目实践建议
- 十、学习资源汇总
一、领域认知:机器人 vs 具身智能
机器人领域
传统机器人技术更侧重:
- 机械结构设计
- 硬件控制、运动规划
- 传感器融合、定位导航
- 特定任务的工程落地
具身智能(Embodied AI)
大模型时代的新兴方向 ,指具备物理形态的智能体通过感知环境、实时交互和自主学习完成复杂任务 (xueqiu, 2025)。核心特征:
- 感知-推理-执行闭环:将大语言模型的推理能力与物理身体结合
- 通用智能:一个模型应对多种任务,而非针对特定场景硬编码
- 自主学习:通过与环境交互持续进化 (sohu, 2025)
- 典型代表:人形机器人(特斯拉Optimus、波士顿动力Atlas)、机械臂操作、移动操控机器人
你的优势在哪里?
作为有大模型/Agent背景的开发者,具身智能是更适合你的切入点:
- ✅ 你已掌握大模型训练推理、多模态、Agent规划
- ✅ 具身智能本质上就是"大模型+物理身体"
- ✅ 算法岗需求增长最快,岗位增速达48% (toutiao, 2025)
二、是否一定需要硬件入门?
答案:不一定!
| 入门路径 | 是否需要硬件 | 适合人群 |
|---|---|---|
| 算法方向(推荐) | ❌ 不需要,纯仿真即可入门 | 有AI/大模型背景转行者 |
| 系统集成方向 | ⚠️ 后期需要接触硬件 | 有硬件/嵌入式背景 |
| 机械结构方向 | ✅ 必须 | 机械/自动化专业 |
为什么不需要硬件入门?
- 现代仿真技术已经非常成熟:高保真物理仿真可以模拟90%以上的算法开发场景
- 仿真免费且安全:不用担心摔坏机器人,可批量并行实验
- 大厂都在这么玩:NVIDIA、Google DeepMind 都是"仿真训练+真机微调"
- 算法岗位招聘不要求你会焊电路板,只看你的算法能力和仿真项目经验
💡 结论:算法方向完全可以从纯软件仿真入门,找到工作后公司会提供硬件让你接触。
三、领域岗位分类
🔥 算法类(最适合你背景)
| 岗位 | 工作内容 | 是否需要硬件 |
|---|---|---|
| 具身智能算法工程师 | 大模型+机器人、VLA(视觉语言动作)模型、世界模型 | ❌ |
| 机器人强化学习工程师 | 端到端控制、策略学习、交互学习 | ❌ |
| 机器人感知算法工程师 | 视觉感知、点云处理、物体检测分割 | ❌ |
| 定位导航算法工程师 | SLAM、路径规划、自主导航 | ❌ |
| 运动规划算法工程师 | 轨迹生成、运动控制、抓取规划 | ❌ |
| 机器人仿真开发工程师 | 仿真环境搭建、数字孪生、数据生成 | ❌ |
| 多模态算法工程师(机器人方向) | 视觉语言动作融合、VLA模型开发 | ❌ |
(以上岗位均可在纯软件环境下入门和工作,参考普渡机器人2026校招 (sysu, 2026))
⚙️ 工程类
| 岗位 | 工作内容 | 是否需要硬件 |
|---|---|---|
| 机器人系统工程师 | 机器人系统集成、软硬件联调 | ✅ |
| 机器人调试工程师 | 现场调试、问题定位 | ✅ |
| ROS开发工程师 | 机器人中间件开发、驱动开发 | ⚠️ |
| 自动驾驶(移动机器人方向) | 感知决策规划控制 | 大部分算法岗❌ |
🔩 硬件/机械类
| 岗位 | 工作内容 | 是否需要硬件 |
|---|---|---|
| 机械结构设计工程师 | 机器人本体设计 | ✅ |
| 硬件工程师 | 电路设计、电机驱动 | ✅ |
| 嵌入式开发工程师 | 下位机控制、固件开发 | ✅ |
📊 行业数据
- 机器人算法工程师以 48% 的招聘职位数同比增速位居榜首
- 机器人调试工程师、机械结构设计工程师、机器人仿真工程师增速均超20% (toutiao, 2025)
四、核心知识图谱
具身智能铁三角:机器人基础 + 大模型能力 + 交互学习
你的已有优势
├── 大语言模型训练推理 ✅
├── 多模态理解 ✅
├── Agent 规划决策 ✅
└── LLM 微调、RLHF ✅
需要补充的知识
├── 机器人学基础
│ ├── 运动学/动力学
│ ├── 坐标变换
│ └── 机器人建模
├── 机器人感知
│ ├── 相机模型
│ ├── 点云处理
│ └── 位姿估计
├── 机器人操作基础
│ ├── 抓取
│ ├── 运动规划
│ └── 控制
├── 仿真平台
│ ├── MuJoCo / Gazebo
│ └── NVIDIA Isaac Sim
├── 前沿方向
│ ├── VLA(视觉-语言-动作)
│ ├── 具身大模型
│ └── 世界模型
五、分阶段学习路线
阶段一:基础铺垫(1-2个月)
目标:快速补上机器人领域必备基础知识,衔接你的大模型经验
-
机器人学基础
- 书籍:《机器人学导论》(Craig)- 重点看:运动学、雅可比、逆运动学
- 在线课:Coursera《Robotics》by University of Pennsylvania
- 中文资源:B站《机器人学导论》南京大学 周克榕
-
ROS 基础(机器人操作系统,必学)
- 学习 ROS 2(推荐,未来主流)
- 掌握:话题、服务、动作、节点通信
- 不用深入底层,会用基本功能即可
-
计算机视觉补充(如果已有可跳过)
- Open3D 点云基础操作
- 相机标定、位姿变换
- 可直接看 Open3D 官方教程
⏰ 每周投入15小时,大约1-2个月完成
阶段二:仿真环境搭建(2周)
目标:搭建好可开发的仿真环境,不用买硬件
推荐选择顺序(对大模型背景开发者):
-
Option A:MuJoCo(推荐入门,轻量易用)
- 开源免费,DeepMind 默认物理引擎
- 安装简单,API 清晰
- 适合做强化学习、简单操控
-
Option B:Gazebo / Ignition
- ROS 原生集成,开源免费
- 社区资源丰富,很多开源机器人模型
-
Option C:NVIDIA Isaac Sim
- 高保真,适合高精度仿真
- 需要较好的NVIDIA显卡(RTX 3090+)
- NVIDIA 最新推出 Isaac GR00T 开源全套人形机器人参考设计,非常适合学习 (toutiao, 2026)
💡 入门建议:先从 MuJoCo 开始,快速跑通第一个例子
阶段三:跟进前沿,开源项目实践(2-3个月)
目标:基于已有开源大模型做二次开发,积累项目经验
建议实践路线:
- 跑通一个开源 VLA 模型(比如 OpenVLA 或 Octo)推理Demo
- 在你选择的仿真环境中做闭环测试
- 做一个简单的任务(比如积木堆叠、物体搬运)
- 尝试微调模型,改善性能
阶段四:进阶深入(根据兴趣方向)
- 如果做算法研究:学习机器人强化学习、Diffusion for Robotics、世界模型
- 如果做应用落地:学习 MoveIt2 运动规划、导航栈、真机部署
- 如果做大模型方向:深入研究 VLA(视觉语言动作)架构、端到端控制
六、开源大模型汇总
🔥 主流开源具身/机器人大模型(2025-2026)
| 模型名称 | 机构 | 类型 | GitHub | 特点 |
|---|---|---|---|---|
| NVIDIA Isaac GR00T | NVIDIA | 人形机器人基础模型 | nvidia-isaac/gr00t | 2026最新,全套开源参考设计,包含硬件+模型+仿真 (toutiao, 2026) |
| OpenVLA | Stanford | 机械臂VLA模型 | openvla/openvla | 基于VLM的开源视觉语言动作模型,支持泛化 (csdn, 2025) |
| Octo | 柏林工大 | 通用机械臂模型 | octo-models/octo | 预训练通用策略,支持多种机器人 |
| π0 (pi-zero) | Google DeepMind | VLA模型 | google-deepmind/pi-zero | 一套框架控制7种机械臂,效果SOTA (csdn, 2025) |
| RoboFlamingo | 斯坦福 | 视觉语言动作 | tristandeleu/roboflamingo | VLA方向开山之作之一 |
| RT-2 | Google DeepMind | 视觉语言动作 | - (paper only) | - |
| 动作大模型(北大) | 北京大学+虚拟动点 | 人形动作模型 | 未公开(2026.5发布) | 文本1秒生成动作,全行业开源 (toutiao, 2026) |
| CogACT | 学界 | VLA动作模型 | cogact/cogact | 把OpenVLA离散动作换成DiT,逼近π0效果 |
开源框架
| 框架 | 特点 |
|---|---|
| OpenPi | 开源机器人学习框架,完整工具链 (csdn, 2025) |
| Habitat Lab | FAIR 具身智能仿真平台 |
| RoboSuite | 机器人强化学习基准环境 |
| Isaac Gym | NVIDIA 高性能并行强化学习 |
低成本开源硬件项目(想玩硬件可以选这个)
| 项目 | 特点 | 成本 |
|---|---|---|
| Open Duck Mini | 开源四足机器人,迷你版 | ~几千元 (csdn, 2025) |
| Unitree Go1 | 宇树开源四足,成熟方案 | ~万元 |
| Hello Robot Stretch | 开源移动操作机器人 | 商业 |
七、优质开源教程/课程
免费中文教程
-
CSDN 2026 具身智能学习路径
- https://blog.csdn.net/hiwangwenbing/article/details/159208452
- 分四个阶段从基础到实战,很适合国内学习者
-
什么值得买:打算做具身智能,请问怎么开始?
- https://post.m.smzdm.com/p/a6z3mdne/
- 核心项目清单,从基础模型到仿真平台 (smzdm, 2026)
-
B站:机器人学基础教程
- 搜索「机器人学导论 南京大学」,周克榕老师的课讲得很好
-
深蓝学院:机器人学与SLAM课程(付费,质量不错)
- 适合系统性补机器人基础
国际名校公开课
-
Coursera: Robotics (University of Pennsylvania)
- https://www.coursera.org/specializations/robotics
- 机器人领域经典入门课,分4门子课程
-
MIT 6.06: Introduction to Robotics
-
Stanford CS237B: Robot Learning
- http://web.stanford.edu/class/cs237b/
- 机器人学习前沿课程
-
DeepMind X UCL: Advanced Robot Learning
- 适合进阶学习强化学习在机器人中的应用
GitHub 优质资源列表
- https://github.com/ai-jian/awesome-embodied-ai
- https://github.com/robotics-learning/awesome-robot-learning
- https://github.com/programthink/awesome-robotics
八、推荐仿真平台
| 平台 | 许可证 | 推荐指数 | 适合人群 | 硬件要求 |
|---|---|---|---|---|
| MuJoCo | 开源免费 | ⭐⭐⭐⭐⭐ | 入门、强化学习 | 低,CPU都能跑 |
| Gazebo | 开源免费 | ⭐⭐⭐⭐ | ROS生态、学术研究 | 中 |
| CoppeliaSim (V-REP) | 开源免费 | ⭐⭐⭐⭐ | 快速原型验证 | 中 |
| NVIDIA Isaac Sim | 免费(非商用) | ⭐⭐⭐⭐⭐ | 高保真、人形机器人 | 高,需要RTX显卡 |
| Webots | 开源免费 | ⭐⭐⭐⭐ | 教育、入门 | 低 |
| PyBullet | 开源免费 | ⭐⭐⭐ | 快速仿真原型 | 低 |
如何选择?
- 纯入门练手 → MuJoCo 或 PyBullet(安装快,跑起来快)
- 做ROS开发 → Gazebo
- 做人形机器人/高要求 → NVIDIA Isaac Sim(需要好显卡)
- 只是想看看效果 → Webots(界面友好)
九、入门项目实践建议
🟢 初级项目(1个月内完成)
基于你的大模型+Agent背景,推荐:
-
LLM + 机械臂:自然语言指令操控
- 用 MuJoCo 仿真一个机械臂
- 用 GPT-4 / Llama 3 把自然语言指令解析成动作序列
- 调用运动规划器执行
- 这就是最简单的具身智能Agent了!
-
基于预训练VLA模型的零样本抓取
- 跑通 OpenVLA 开源代码
- 在 MuJoCo 仿真中测试不同物体抓取
- 尝试更换指令看是否能泛化
🟡 中级项目(2-3个月)
-
具身Agent任务规划
- 结合你的Agent开发经验
- 把大模型ReAct思维链和机器人执行结合
- 完成多步骤桌子整理任务(仿真环境)
-
微调开源VLA模型适配新机器人
- 在仿真中收集1000条新机器人数据
- 对 OpenVLA 做轻量微调(LoRA)
- 测试泛化性能
🔴 高级项目(3个月+)
-
端到端强化学习学习行走
- 用 Isaac Gym / MuJoCo
- 训练一个四足机器人从0学会行走
- 这个项目很刷简历
-
RT-1 / RT-2 复现
- 复现经典的视觉语言动作架构
- 放到GitHub上很亮眼
十、学习资源汇总
必看论文(快速了解前沿)
- RT-1: Robotics Transformer - Google 2022
- RT-2: Vision-Language-Action Models - Google DeepMind 2023
- OpenVLA: A Open-Source VLA for Generalizable Robot Manipulation - Stanford 2024
- π0: A Policy for Everything - Google DeepMind 2025
- GR00T: A Foundation Model for Humanoid Robots - NVIDIA 2026
社区关注
- GitHub Trending :每日关注机器人/具身智能新项目 (toutiao, 2026)
- Reddit r/robotics / r/embodiedAI
- 知乎「具身智能」话题
- Hugging Face 机器人专区
顶会顶刊(跟进最新研究)
- ICRA / IROS / RSS - 机器人顶会
- NeurIPS / ICML / CVPR - AI顶会,很多具身智能论文
- CoRL - Conference on Robot Learning
🎯 给你的转行进阶建议
-
发挥你的优势 :你有大模型+Agent经验,聚焦具身智能大模型方向,这是当前最火、缺口最大的方向
-
不必过度纠结基础:不用重新读一遍机械学位,重点补你需要的:运动学基础、ROS、仿真,够用就行
-
仿真是你的朋友:坚持纯软件仿真入门,省时间省钱,还能快速出项目
-
做开源项目攒简历:在GitHub上放一个你基于开源大模型微调的机器人项目,比什么都管用
-
岗位方向优先选:具身智能算法工程师 > 机器人强化学习 > 机器人仿真 > 感知,这些都不需要硬件背景也能入门
⏱️ 时间表参考
| 阶段 | 时间 | 内容 |
|---|---|---|
| 阶段一 | 1-2个月 | 机器人基础+ROS |
| 阶段二 | 2周 | 仿真环境搭建 |
| 阶段三 | 2-3个月 | 跑通开源大模型+做项目 |
| 阶段四 | 持续 | 跟进前沿+面试准备 |
总时间:3-6个月 可以从入门到攒好项目去找工作
2025-2026 是具身智能爆发的元年,上海已经出台了详细的政策路线,产业界投入巨大 (toutiao, 2025)。你有大模型+Agent背景,切入具身智能是非常顺理成章的,优势很大!祝你转行顺利!