1.1 机器人发展历史与背景

前置说明：本章是整个ROS2机器人仿真课程的奠基篇。在正式学习ROS2工具和编程方法之前，我们有必要先了解机器人技术的来龙去脉------它从哪里来？现在在哪里？将要到哪里去？只有理解了这些背景知识，你才能更好地理解为什么ROS2要这样设计，以及为什么掌握机器人仿真技能在当今时代如此重要。

1. 机器人起源

1.1 从神话到机械------人类对"人造生命"的千年追求

人类创造机器人的梦想，可以追溯到几千年前的神话传说。

在希腊神话中，赫菲斯托斯（Hephaestus）------希腊神话中的火神与工匠之神------据说他用黄金打造了能够帮助他锻造金属的机械女仆。这是人类最早关于"人造劳动者"的想象。中国古代同样有类似的传说，东汉科学家张衡发明的"木牛流马"被认为是最早的"自动机械"之一，虽然其真实原理至今仍有争议，但反映出古人对于能够自动运输货物的机械装置的渴望。

进入中世纪，欧洲的能工巧匠们开始将神话变为现实。1738年，法国发明家雅克·德·沃康松（Jacques de Vaucanson）制作了一只能够活动翅膀、吃东西、排泄的"机械鸭"，这只机械鸭虽然只是精巧的玩具，但它展示了机械传动原理在模仿生物运动方面的可能性。随后，瑞士的制表大师们更是制作出能够写字、绘画、弹奏乐器的"自动人偶"，这些装置被收藏在欧洲各大宫廷中，成为当时科技与艺术完美结合的象征。

1.2 "Robot"一词的诞生

1920年，一个注定被载入史册的新词汇诞生了。

捷克作家卡雷尔·恰佩克（Karel Čapek）在他的科幻剧作《罗梭的万能工人》（Rossum's Universal Robots，简称R.U.R.）中，首次创造了"Robot"这个词。在捷克语中，"robota"意为"强制劳动"或"苦工"，恰佩克用它来描述一种能够不知疲倦地为人类工作的"人造工人"。这部戏剧讲述了一个人造机器人反叛并消灭人类的故事，是最早对人工智能可能带来的风险进行深刻思考的文艺作品之一。

图注：1920年首演的《罗梭的万能工人》海报，卡雷尔·恰佩克创造了"Robot"一词

从那时起，"Robot"这个词汇迅速传播到全世界，成为所有类型机器的统称。而"robotics"（机器人学）这个学科名称，则是由科幻大师艾萨克·阿西莫夫（Isaac Asimov）在1942年首次提出。

2. 发展阶段

2.1 三次浪潮------机器人技术如何走到今天

回顾机器人技术的发展历程，可以清晰地看到三个重要阶段，每一次技术突破都伴随着产业的爆发式增长。

第一代：示教再现型机器人（1960s-1970s）

1961年，一个载入工业史册的年份。美国通用汽车公司在其新泽西工厂中，安装了世界上第一台工业机器人------尤尼梅特（Unimate）。这台由工程师约瑟夫·恩格尔伯格（Joseph Engelberger）发明的庞然大物，重达两吨，靠液压驱动，能够精确地完成焊接操作。在此之前，汽车焊接完全依赖工人手持焊枪，不仅效率低下，还会对工人的健康造成严重损害。尤尼梅特的诞生，标志着机器人正式进入工业生产领域。

图注：1961年安装在通用汽车工厂的世界上第一台工业机器人尤尼梅特

这一代机器人的核心特征是"示教再现"------工人需要先手动操作机器人完成一遍任务，机器人会记住整个动作轨迹，然后可以无限次地重复执行。这种方式虽然开启了工业自动化的序幕，但缺点也很明显：无法应对复杂多变的环境，一旦产品型号变化，就需要重新示教。

图注：现代工业机器人广泛应用于汽车制造、电子装配等领域

第二代：感知型机器人（1980s-1990s）

1980年代，随着传感器技术的进步，机器人开始拥有"感知"世界的能力。这一代机器人配备了力觉传感器、触觉传感器甚至视觉传感器，能够根据环境变化调整自己的行为。

日本在这个时期成为全球最大的工业机器人生产国。发那科（Fanuc）、安川（Yaskawa）、松下（松下）等日本企业迅速崛起，成为工业机器人领域的巨头。1980年，也因此被业界称为"机器人元年"。

第三代：智能机器人（2000s-至今）

进入21世纪，人工智能技术的突破让机器人真正变得"智能"起来。2000年，日本本田公司展示了能够像人类一样行走、跑步、上下楼梯的阿西莫（ASIMO）机器人，这是世界上最早具备双足运动能力的人形机器人之一。2013年，波士顿动力公司（Boston Dynamics）的Atlas双足机器人首次公开亮相，它能够完成跳跃、翻滚、后空翻等高难度动作，刷新了人们对机器人运动能力的认知。

图注：波士顿动力Atlas是智能机器人的代表，能够完成复杂动作

2.2 中国人形机器人崛起

近年来，中国在人形机器人领域取得了显著进展，涌现出一批具有国际竞争力的企业和技术成果。

宇树科技（Unitree） 是中国领先的足式机器人公司，其发布的Unitree H1是目前国内最先进的人形机器人之一。H1身高约1.8米，体重47kg，最高奔跑速度可达3.3m/s，刷新了同类产品的纪录。宇树科技采用自主研发的电机驱动系统，实现了高性能运动控制。

图注：宇树科技Unitree H1人形机器人

智元机器人（AGIBOT） 成立于2023年，由华为前高管创立，专注于通用人形机器人的研发。智元机器人致力于打造具有高度智能化的人形机器人平台，应用于工业制造、商业服务和家庭场景。

图注：智元机器人通用人形机器人

逐际动力（LimX Dynamics） 是中国领先的足式机器人公司，在双足和多足机器人领域拥有深厚的技术积累。逐际动力发布的P系列双足机器人具备稳定的行走和奔跑能力，在复杂地形适应方面表现突出。

图注：逐际动力双足机器人

国产机器人与Atlas的对比：

维度	波士顿动力Atlas	中国人形机器人
驱动方式	液压驱动	电机驱动
运动能力	跑酷、后空翻	行走、奔跑
成本	百万级	十万级
应用场景	研究为主	商业化探索
产业链	美国	中国制造

总体来看，中国人形机器人在商业化落地 和成本控制方面具有优势。

3. 行业应用背景

3.1 机器人已经改变了哪些行业？

机器人技术的价值，最终体现在它能够解决实际问题、创造经济价值。今天，机器人已经渗透到几乎所有行业的各个角落。

工业制造------汽车行业的革命性变革

要说机器人应用最成熟的领域，工业制造当之无愧。汽车制造是工业机器人最大的应用市场。一辆普通汽车的制造过程中，需要用到上百台不同类型的工业机器人，包括焊接机器人、喷涂机器人、装配机器人、搬运机器人等。

以焊接为例，传统手工焊接需要工人长时间保持同一姿势，不仅劳动强度大，而且焊接质量难以保证。现代汽车工厂中，焊接工作几乎全部由机器人完成，焊缝均匀美观，生产效率是人工的数倍。

物流仓储------电商时代的幕后英雄

当你网上购物时，可能从未想过那些包裹是如何快速准确地被分拣、装车的。在亚马逊的仓库中，数以万计的Kiva机器人（现为Amazon Robotics）在地上忙碌地穿梭，它们驮着货架在仓库中移动，把需要的商品送到分拣员面前。这种"货到人"的模式，让仓库分拣效率提升了5倍以上。

图注：亚马逊仓库中的Kiva机器人大幅提升物流效率

医疗健康------生命的守护者

在手术室里，达芬奇手术机器人（Da Vinci Surgical System）已经成为外科医生的得力助手。它不是真的"自主"做手术，而是通过医生远程操控，辅助完成精细的微创手术。医生坐在操作台前，像玩游戏手柄一样控制机械臂，机械臂能够消除人手部颤动的影响，让手术更加精准。

图注：达芬奇手术机器人辅助医生完成微创手术

4. 机器人技术发展趋势

4.1 未来已来------这些趋势正在重塑机器人产业

站在今天的时间节点上，我们能够清晰地看到机器人技术正在朝着几个重要方向演进。

图注：机器人技术四大发展趋势：智能化、协作化、平台化、自主化

趋势一：智能化------从"自动化"到"自主化"

传统机器人需要人类预先设定所有动作，而新一代智能机器人能够自己"思考"。随着深度学习、强化学习等人工智能技术的发展，机器人开始具备自主学习、推理决策的能力。

趋势二：协作化------人与机器共舞

传统工业机器人需要安装在安全围栏里，因为它们力量太大、速度太快，靠近会很危险。但新一代协作机器人（Collaborative Robot，简称Cobot）能够与人类安全地近距离协同工作。

趋势三：平台化------降低开发门槛

开源机器人操作系统ROS（Robot Operating System）的出现，是机器人软件领域的一次革命。它提供了一套标准化的通信框架和工具库，让开发者可以专注于核心算法，而不是底层硬件驱动。

5. 具身智能

5.1 为什么"具身智能"是AI的下一个前沿？

如果你关注人工智能领域的最新动态，一定听说过"具身智能"（Embodied AI）这个词。为什么它如此重要？

什么是具身智能？

传统的人工智能------比如你手机里的语音助手、ChatGPT------它们主要处理的是符号数据：文字、图像、声音。这些AI没有"身体"，无法与物理世界直接交互。

而具身智能则强调AI需要"具身"------拥有一个物理载体（机器人、无人机、智能设备等），通过传感器感知世界，通过执行器改变世界，在与环境的交互中学习和进化。

为什么具身智能重要？

著名AI研究者李飞飞教授曾提出一个观点："AI的下一个重大进步将是'赋予AI身体'。"

这是因为，我们人类的所有智能------语言、推理、学习------都与我们的身体体验密切相关。我们知道"热"是什么，因为被烫过；我们知道"重"是什么，因为搬过重物。纯粹的语言模型可以写出关于"疼痛"的优美句子，但它从未真正"痛"过。

具身智能要让AI真正理解物理世界，就必须让它们有body（身体），有experience（体验）。

5.2 大语言模型在机器人中的应用

大语言模型（Large Language Model，简称LLM）的出现，为机器人理解自然语言指令带来了革命性突破。传统机器人控制系统需要将人类指令精确转换为低层动作指令，这一过程往往需要专业工程师进行繁琐的编程设计。而大语言模型能够理解模糊、复杂的自然语言描述，并将其转化为可执行的动作序列，极大地降低了人机交互的门槛。

谷歌于2023年发布的PaLM-E模型是这一领域的里程碑式工作。该模型将PaLM大语言模型与机器人视觉感知系统相融合，能够直接理解"把抽屉里的芯片拿出来放到盒子里"这样的复杂指令，并自主规划完整的动作序列来完成指令（Dadkhahi et al., 2023）。PaLM-E展示了LLM在机器人任务规划中的巨大潜力。

SayCan（Ahn et al., 2022）则采用了一种更实用的方法，将LLM作为"大脑"与可学习的技能库相结合。LLM负责理解任务并选择合适的技能，而每个技能则由强化学习训练的子策略执行。这种模块化架构既保留了语言理解的灵活性，又保证了动作执行的可靠性。

Code as Policies（Liang et al., 2023）更进一步，提出用代码作为机器人的通用表示形式。LLM可以直接生成Python代码来控制机器人，这些代码能够调用感知API、执行器控制函数，甚至包含反馈循环来实现复杂行为。

图注：PaLM-E模型理解自然语言指令并控制机器人执行任务

5.3 视觉语言模型在机器人中的应用

如果说大语言模型赋予了机器人"语言理解"的能力，那么视觉语言模型（Vision-Language Model，简称VLM）则让机器人拥有了"眼睛"。VLM能够同时理解图像和文本信息，实现跨模态的推理和理解，这在机器人感知环境中发挥着至关重要的作用。

RT-2（Robotics Transformer 2）是DeepMind在2023年发布的重要工作，它是第一个能够直接从互联网规模的视觉-语言数据中学习泛化能力的机器人操作模型（Brohan et al., 2023）。RT-2将视觉输入和语言指令同时编码，通过Transformer架构直接输出机器人动作。

OK-Robot（Liu et al., 2024）专注于开放词汇物体抓取任务。该工作提出了一个简洁而有效的框架，能够在从未见过的环境中抓取任意物体。

Manipulate Anything （Song et al., 2024）则探索了在没有人类演示的情况下，如何让机器人通过视觉语言模型泛化操作技能。

5.4 视觉语言动作模型

视觉语言动作模型（Vision-Language-Action Model，简称VLA）是具身智能领域最前沿的研究方向之一。与VLM不同，VLA直接建立从视觉观察到动作输出的映射，实现端到端的学习和推理。

在RT-1的基础上，RT-2进一步引入了互联网规模的视觉语言预训练，使得模型具备了推理和泛化的能力（Brohan et al., 2023）。RT-2能够执行"把零食放到最近的人手里"这样的语义推理任务，展现了VLA在理解抽象概念方面的潜力。

VLA的核心优势在于其"端到端"特性：从感知到决策再到执行，整个过程在一个统一的神经网络中完成。这不仅简化了系统架构，更重要的是实现了全局优化。

图注：RT-2是典型的VLA模型，直接输出机器人动作

5.5 强化学习在机器人控制中的应用

强化学习（Reinforcement Learning，简称RL）是让机器人通过与环境交互、自我试错来学习最优策略的方法。与传统的基于规则的编程不同，强化学习能够让机器人在未知环境中自主发现有效的行为模式。

2013年，DeepMind展示了Deep Q-Network（DQN）能够学习玩Atari游戏（Mnih et al., 2013），这一突破证明了深度强化学习在处理高维感知输入方面的潜力。

在连续控制领域，深度确定性策略梯度（DDPG）（Lillicrap et al., 2016）及其后续改进算法（如TD3、SAC）成为机器人运动控制的主流方法。

强化学习的核心挑战在于样本效率 ------机器人需要在真实环境中进行大量试错才能学到有效策略。为了解决这一问题，研究者们发展出了模拟到真实（Sim-to-Real）迁移 技术。

5.6 模仿学习在机器人技能习得中的应用

模仿学习（Imitation Learning）是让机器人从人类演示中学习技能的方法。与强化学习相比，模仿学习更加直观------人类直接展示如何完成任务，机器人通过观察学习执行相同的行为。

**行为克隆（Behavior Clone，BC）**是最基础的模仿学习方法。机器人直接监督学习的方式，从演示数据中学习从状态到动作的映射。

为了解决分布偏移问题，DAgger（Ross et al., 2011）提出了迭代式的训练方法。该方法让机器人在执行过程中不断收集人类纠正数据，然后用这些数据重新训练策略。

斯坦福大学的ALOHA （Zhao et al., 2024）框架则将模仿学习推向了新的高度。ALOHA使用低成本的可穿戴设备记录人类操作的高精度演示数据，然后通过行为克隆训练机器人执行相同任务。

图注：ALOHA通过人类演示数据训练机器人掌握精细操作技能

5.7 空间智能与3D理解

空间智能是指机器人理解3D空间关系的能力。这是实现通用具身智能的关键技术之一。

PointNet（Qi et al., 2017）是3D深度学习的里程碑工作，它能够直接处理点云数据，实现3D物体的分类和分割。

NVIDIA GR00T 是2024年发布的通用机器人基础模型，旨在让机器人具备理解3D空间、执行复杂任务的能力。

李飞飞与杨立昆的空间智能观点

李飞飞（Fei-Fei Li） 是斯坦福大学教授、斯坦福AI Lab主任，她近年来大力推动"空间智能（Spatial Intelligence）"概念。2024年，李飞飞在多个场合强调：真正的智能不仅仅是语言理解，更重要的是理解3D空间。她领导的团队正在研究如何让AI系统像人类一样理解空间关系、进行物理推理。李飞飞认为，"看"是智能的基础，视觉理解是通往通用智能的关键路径。她的研究涵盖3D场景理解、神经渲染、具身智能等领域。

杨立昆（Yann LeCun） 是图灵奖得主、Meta前AI首席科学家。2025年，杨立昆创立了新公司Advanced Machine Intelligence (AMI)，筹集了超过10亿美元用于开发"世界模型"（World Models）。与当前的大语言模型不同，杨立昆认为真正的AI需要理解物理世界，需要具备常识和推理能力。他提出的JEPA（联合嵌入预测架构）是实现这一目标的关键路径。杨立昆多次公开表示："现有的LLM无法实现通用人工智能，我们需要能够理解和预测物理世界的AI系统。"

两者的共识 ：尽管方法不同，李飞飞和杨立昆都认为空间理解是通往更高级智能的关键。李飞飞从视觉角度出发，杨立昆从世界模型角度出发，两者共同推动具身智能的发展。

本章小结

本章我们一起回顾了机器人技术的发展历程。从古代的自动机械，到科幻作品中虚构的"人造工人"，再到今天能够自主行走、与人协作的智能机器人，人类对机器人的想象与追求从未停止。

核心要点回顾：

机器人起源：从古代自动机到"Robot"一词的诞生
发展阶段：经历了示教再现→感知型→智能机器人三次重要演进
行业应用：工业制造、物流仓储、医疗健康、服务行业等领域广泛应用
发展趋势：智能化、协作化、平台化是三大核心方向
具身智能：LLM、VLM、VLA、强化学习、模仿学习、空间智能是核心技术

思考与练习

想一想：在你生活的周围，有哪些地方已经或将要使用机器人？它们属于哪一类机器人？
查一查：你最感兴趣的机器人公司或产品是什么？它们使用了哪些核心技术？
议一议：具身智能的发展可能带来哪些伦理问题？人类应该如何应对？

参考资料

机器人历史

《机器人学导论》（Introduction to Robotics: Mechanics and Control） - John J. Craig
IEEE Robotics and Automation Magazine
《罗梭的万能工人》（R.U.R.） - 卡雷尔·恰佩克 1920年

具身智能与大型模型

Dadkhahi, H., et al. (2023). PaLM-E: An Embodied Multimodal Language Model. arXiv:2303.03378.
Ahn, M., et al. (2022). Do As I Can, Not As I Say: Grounding Language in Robotic Affordances. arXiv:2204.01691.
Liang, J., et al. (2023). Code as Policies: Language Model Programs for Embodied Control. arXiv:2209.07753.
Brohan, A., et al. (2022). RT-1: Robotics Transformer for Real-World Control at Scale. arXiv:2212.06817.
Brohan, A., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv:2307.15818.
Liu, H., et al. (2024). OK-Robot: Open Vocabulary Mobile Manipulation. arXiv:2401.01995.
Song, S., et al. (2024). Manipulate Anything: Automating Robotic Manipulation in the Real World. arXiv:2404.03528.

强化学习与模仿学习

Mnih, V., et al. (2013). Playing Atari with Deep Reinforcement Learning. NIPS 2013.
Lillicrap, T. P., et al. (2016). Continuous Control with Deep Reinforcement Learning. ICLR 2016.
Ross, S., et al. (2011). A Reduction of Imitation Learning to No-Regret Online Learning. AISTATS 2011.
Bojarski, M., et al. (2016). End to End Learning for Self-Driving Cars. arXiv:1604.07316.
Zhao, T. Z., et al. (2024). ALOHA: Learning to Do by Learning from Observation. CoRL 2024.

空间智能与3D理解

Qi, C. R., et al. (2017). PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. CVPR 2017.
NVIDIA (2024). GR00T: Generalist Robot 00 Foundation Model. NVIDIA GTC 2024.