【Science Robotics】Human-robot facial coexpression

Sherry Wangs2026-01-17 12:37

"Human-robot facial coexpression" (人机面部共表情) 由哥伦比亚大学的 Yuhang Hu 等人发表在 Science Robotics 上。该研究提出了一种能够让机器人与人类同时做出面部表情（coexpression）的系统，而不仅仅是延迟模仿。

文章目录

核心问题
核心思想
方法
- [硬件设计：Emo 机器人](#硬件设计：Emo 机器人)
- 软件算法：双神经网络框架
- - [1. 逆向模型 (Inverse Model / Self-Model)：让机器人"了解自己"。](#1. 逆向模型 (Inverse Model / Self-Model)：让机器人“了解自己”。)
  - [2. 预测模型 (Predictive Model / Conversant Model)：让机器人"预判他人"。](#2. 预测模型 (Predictive Model / Conversant Model)：让机器人“预判他人”。)
实验
- 模型性能评估
- 物理机器人演示
贡献

核心问题

目前的人形机器人在非语言交流（特别是面部表情）方面存在两个主要障碍，导致其难以与人类建立真正的共鸣：

机械执行的挑战：制造一个能够进行多功能表达、机械结构复杂的机器人面部是非常困难的。
表情生成的时机与自然度 ：传统的机器人通常是被动的，它们先感知人类的情绪，然后在处理后做出反应。这种"感知-处理-行动"的循环会导致明显的延迟。
延迟的模仿（Delayed Mimicry）往往被认为是虚伪、做作或不自然的，无法建立真诚的情感联系。
只有当两个人同时微笑时，这种"同步性"才能让对方感觉到真诚和相互理解。

核心思想

该论文的核心思想是 "预测即共鸣" 。

作者认为，为了让机器人看起来真诚，它必须具备 预测能力 ，即在人类完全做出表情之前，预判其意图并同步执行表情。

从模仿转向共表情（Coexpression） ：机器人不应等待人类做完表情后再模仿，而应通过观察人类面部肌肉的微小变化，预测未来的表情，并与人类同时达到表情的"峰值" 。
预测时间窗 ：研究发现，机器人可以在人类微笑前约 839 毫秒 预测到这一行为，利用这段时间差来同步生成表情。

方法

为了实现这一目标，作者在硬件设计和软件算法两方面进行了创新。

硬件设计：Emo 机器人

作者开发了一个名为 Emo 的拟人化面部机器人：

高自由度 ：拥有 26 个致动器（自由度），相比前代 Eva 机器人的 10 个大幅提升，支持不对称表情。
软体皮肤与磁力连接 ：使用硅胶皮肤，并通过 30 个磁铁 与机械结构连接，便于更换和维护，同时提供更精确的皮肤变形控制。
眼部摄像头：在每个眼球瞳孔处嵌入了高分辨率 RGB 摄像头，使机器人能够进行自然的目光接触并捕捉对话者的面部。

软件算法：双神经网络框架

该系统包含两个核心神经网络模型，协同工作以实现共表情：

1. 逆向模型 (Inverse Model / Self-Model)：让机器人"了解自己"。

这是一个自我监督学习过程。机器人对着镜子进行随机的"运动牙牙学语"（motor babbling），学习原本的运动指令与最终生成的面部地标（facial landmarks）之间的关系。
功能：输入想要达到的面部表情（地标），输出控制电机的指令。

2. 预测模型 (Predictive Model / Conversant Model)：让机器人"预判他人"。

基于人类视频数据训练。该模型观察人类面部表情的初始微妙变化（如嘴角微动），预测即将发生的"目标表情" 。
功能：输入当前人类面部的连续几帧图像，输出预测的人类未来面部地标。
工作流 ：
1. 检测到人类面部微动。
2. 预测模型推断出人类即将展示的表情。
3. 将预测的人类表情通过归一化映射到机器人的面部空间。
4. 逆向模型计算出电机指令。
5. 机器人执行指令，与人类同时完成微笑。

实验

作者通过定量分析和物理演示验证了系统的有效性。

模型性能评估

逆向模型精度：在生成准确的电机指令方面，该模型显著优于随机搜索和最近邻搜索等基线方法。
预测模型精度 ：与"模仿基线"（即简单复制上一帧表情）相比，预测模型在预测未来面部地标方面的误差更小，证明了它确实学到了面部动态变化的规律，而不仅仅是复制。
混淆矩阵分析 ：模型预测面部肌肉激活的准确率约为 72.2% ，阳性预测值（PPV）达到 80.5% 。

物理机器人演示

对比实验 ：作者让 Emo 机器人分别使用"共表情模式"（预测）和"模仿模式"（延迟）与人类互动，突出了共表情模式的同步性和真实感，以及模仿模式中滞后反应的人工感。
结果：
- 在共表情模式下，机器人能够在人类微笑开始后的极短时间内（预测耗时仅 0.002秒，留出 0.839秒给机械执行）同步做出微笑动作，视觉上几乎完全同步。
- 在模仿模式下，机器人会有明显的滞后，看起来是在人类笑完之后才笑。

贡献

硬件创新：设计了具有 26 个自由度、眼部嵌入摄像头且易于维护（磁性皮肤）的高级面部机器人 Emo 。
算法框架：提出了结合"自我模型"（逆向运动学）和"对话者模型"（表情预测）的学习框架，无需人工标记数据即可实现复杂的表情控制。
交互范式转变：证明了机器人可以通过学习面部微表情来预测人类意图，从而实现从"被动模仿"到"主动共情/共表情"的跨越，为更自然的人机交互（HRI）奠定了基础。

上一篇：01 功能测试（移动电源 - 05）

下一篇：爱普生TG2016SMN温补晶振性能解析_±0.5ppm高精度2016封装TCXO

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04OpenClaw + 飞书（Feishu）环境搭建指南 05Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07Window 10部署openclaw报错node.exe : npm error code 128 08AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 09AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot 10OpenClaw优化飞书API 额度已耗尽问题