Ego第一视角工业装配数据采集系统架构

工业装配场景的数据采集与消费级场景有本质区别。产线环境的复杂性、任务的高精度要求、以及生产节拍的硬约束，决定了采集系统必须在架构层面解决多模态数据对齐、边缘计算适配、以及采集效率与数据质量的平衡问题。

本文将从系统架构的角度，解析工业装配场景下的Ego（第一人称视角）数据采集方案，并结合具体的技术实现细节进行深入探讨。

工业场景的特殊挑战

工厂不是实验室，有油污、有粉尘、有持续震动。

这是工业数据采集中最常被提起的一句话。具体来说，工业装配场景的数据采集面临以下几个核心挑战：

环境干扰的多维性

油污会影响光学传感器的精度，特别是对于依赖表面特征提取的视觉算法而言，油渍造成的镜面反射会直接导致识别失败。粉尘会造成镜头污染，在高帧率采集时，附着在镜头上的微小颗粒会被放大成明显的噪点。金属表面的高光反射是另一个棘手问题------不锈钢、铝合金等金属材料的镜面反射会导致相机曝光过度或产生伪影，影响后续的图像处理算法。产线震动会引入运动伪影，特别是在高速相机采集场景下，即使微小的震动也会造成图像模糊。

时序同步的精确性要求

装配任务涉及视觉、力觉、触觉、关节角度等多种信号源，这些信号必须在时间维度上精确对齐，才能形成有效的训练样本。一个典型的装配动作可能持续数秒，但关键的接触事件往往发生在毫秒级别。如果视觉信号和力觉信号的时间戳相差过大，模型就无法正确学习视觉信息和力反馈之间的对应关系。在实际测试中，我们发现当时间对齐误差超过20毫秒时，训练出的模型在真实场景中的成功率会下降约15%。

生产节拍的硬约束

工业产线有严格的生产节拍，每个工位都有固定的cycle time要求，通常在几秒到几十秒不等。数据采集过程不能显著影响正常生产，这意味着采集系统必须在不影响节拍的前提下完成数据获取。这对系统设计提出了很高的要求：传感器的响应速度、数据处理延迟、存储写入速度都必须经过精心优化。

长尾场景的覆盖困境

占99%以上的常规场景容易采集，但不足1%的长尾场景才是决定系统能否真正落地的关键。这些长尾场景包括：零件表面缺陷、物料位置偏差、工具磨损、意外碰撞等。它们的发生概率低，但处理不当就会导致整个生产流程中断。如何高效地采集这些低频但高价值的数据，是行业面临的核心难题。

系统总体架构

工业Ego数据采集系统的架构可以划分为四个层次：感知层、计算层、存储层、以及管理调度层。这种分层设计既保证了系统的模块化，又便于针对不同场景进行定制化优化。

感知层

感知层负责采集原始数据，主要包括以下传感器模态：

视觉信号采集

通常采用嵌入式AI相机，以第一人称视角固定在机器人末端或操作员腕部。这种部署方式的优势在于能够获取与机器人视角一致的画面，便于后续的模型训练和部署。分辨率通常在1080P到4K不等，帧率根据任务需求可选30fps到120fps。对于高速运动场景，如螺栓拧紧的最后几圈，可能需要更高的帧率来捕捉细节动作。

在实际部署中，相机的曝光参数和白平衡设置需要根据车间光照条件进行动态调整。南昌龙旗科技的3C产线采用的是人工照明，光照相对稳定；但在领益智造的超级工厂中，自然光和人工照明混合，需要更复杂的自适应机制。

力觉信号采集

力矩传感器安装在关节或末端执行器上，采样率通常在1kHz以上，用于捕获装配过程中的接触力变化。在精密装配场景中，力觉信息是判断任务是否成功的关键依据。例如在插针场景中，当针尖接触到孔位边缘时，力觉信号会出现明显的特征变化，这个信号可以用来指导机器人调整姿态。

传感器的量程和精度需要根据具体任务选择。对于柔性零件的抓取场景，可能需要更低量程但更高精度的传感器；对于大扭矩螺栓拧紧场景，则需要大量程的传感器来覆盖整个力矩范围。

触觉信号采集

新型的触觉传感器阵列可以获取手掌与工件接触时的压力分布信息。相比传统的单点力传感器，触觉阵列能够提供更丰富的空间信息。炬坤机器人的工业灵巧手项目就采用了这种技术，内含50+通用工业基础动作库，覆盖上万种工业件。

触觉传感器的技术路线主要有电容式、压阻式、光学式等。电容式传感器响应速度快，适合动态场景；压阻式传感器结构简单，可靠性高；光学式传感器则具有更好的线性度和温度稳定性。在实际选择时，需要综合考虑响应速度、精度、可靠性和成本等因素。

运动信号采集

关节角度、末端位置、速度、加速度等运动学参数，通过机器人控制器实时获取。这些参数是轨迹规划和运动控制的基础，也是数据标注时的重要参考。

机器人的控制系统通常采用EtherCAT或类似的高速总线协议，周期时间可以达到1毫秒甚至更低。但在数据采集时，为了平衡数据量和精度，通常会以较低的频率（如100Hz）进行采样，然后通过插值等方式恢复到高频率。

辅助信号采集

温度、湿度、振动等环境参数，用于后续的数据筛选和质量控制。在长周期的数据采集中，环境条件可能发生显著变化，这些变化会影响数据的有效性。例如，当温度升高时，金属零件的热膨胀会导致尺寸偏差，如果忽略这一因素，采集的数据可能无法准确反映实际工况。

计算层

计算层完成数据预处理和实时分析，主要包括边缘计算单元、多模态时间同步、数据质量实时检测等功能模块。

边缘计算单元

边缘计算单元部署在产线附近的工控机或边缘服务器上，负责接收传感器数据并进行初步处理。考虑到产线网络的延迟和稳定性，边缘计算是必要的设计选择。传感器数据通常以UDP或类似的无连接协议传输到边缘服务器，边缘服务器完成解析、校准、格式化等处理后，将结果写入本地存储或转发到中心服务器。

边缘服务器的选型需要考虑计算性能、接口丰富度、可靠性等因素。在工业环境中，通常会选择支持宽温、宽压、抗震的工业级服务器。为了保证系统的可靠性，边缘服务器还会配置RAID或类似的存储冗余机制。

多模态时间同步

这是系统的核心模块。采用硬件时间戳或精确时间协议（PTP）确保各传感器的时间基准统一。对于工业场景，通常要求多模态数据的时间对齐精度在10毫秒以内。

硬件时间戳方案需要在传感器端配置专用的时钟芯片和同步信号发生器。当传感器启动时，通过同步信号将各传感器的本地时钟对齐到统一的时间基准。这种方案的精度最高，可以达到微秒级，但成本也相对较高。

PTP方案则利用以太网的时间同步能力，通过软件实现时钟对齐。这种方案的成本较低，但精度受网络延迟抖动的影响，通常只能达到亚毫秒级。对于大多数工业场景，这个精度已经足够。

数据质量实时检测

在数据写入存储之前，先经过质量检测模块。检测内容包括：画面是否清晰、是否存在遮挡、运动轨迹是否完整、力觉信号是否异常等。只有通过质量检测的数据才会进入后续流程。

质量检测算法通常包括多个子模块：图像质量评估子模块会分析画面的对比度、锐度、曝光等指标；运动完整性检测子模块会检查轨迹是否连续、是否有异常跳跃；力觉异常检测子模块会识别传感器漂移、数据突变等异常情况。

在实际运行中，我们发现约10%-15%的原始数据会因为质量问题被过滤掉。这些被过滤的数据虽然不能直接用于训练，但可以保存下来用于后续的质量分析和传感器诊断。

存储层

存储层采用分层架构，包括原始数据缓存、结构化数据仓库和元数据管理三个部分。

原始数据缓存

高速SSD阵列用于暂存原始数据，容量根据采集规模和周期确定。对于高帧率视觉数据，每秒可能产生数百MB甚至GB级的数据量，需要大容量的高速存储来应对。SSD的写入速度通常在数百MB/s到数GB/s不等，需要根据数据产生速率选择合适的型号。

考虑到成本因素，原始数据通常只保留有限时间（如一周），之后会删除或归档到冷存储中。在此期间，数据可以被回放和重新处理，用于调整质量检测算法或补充采集缺口。

结构化数据仓库

经过清洗和标注的、结构化的训练数据，存储在支持快速检索的数据库中，便于后续的训练任务调用。数据库的选型需要考虑数据规模、查询模式、扩展性等因素。

对于小规模数据，关系型数据库（如PostgreSQL）就可以满足需求；对于大规模数据，可能需要分布式数据库或专门的时间序列数据库。数据仓库的设计还需要考虑数据分区、索引优化等细节，以确保查询性能。

元数据管理

每条数据都有完整的元数据记录，包括采集时间、产线工位、任务类型、物料批次、环境参数、质量评分等。这些元数据对于数据的筛选和使用至关重要。

元数据的管理通常采用与数据本身分离的方式，这样可以提高查询效率。元数据可以存储在关系型数据库或文档数据库中，通过标准化的API对外提供服务。

管理调度层

管理调度层负责整个采集任务的规划和执行，包括任务配置、设备管理、数据标注等功能。

任务配置

定义采集任务的参数，包括目标场景、工件类型、采集数量、质量标准等。任务配置可以通过配置文件或图形界面进行，支持参数的动态调整和任务的批量创建。

在配置任务时，需要考虑采集优先级、数据分布平衡、异常处理策略等因素。对于长尾场景，可能需要特别配置更高的采集权重或更长的采集周期。

设备管理

监控各传感器的状态，管理设备校准和故障恢复。设备状态监控通常包括在线/离线状态、数据质量指标、告警信息等。当设备出现异常时，系统会自动触发告警并尝试自动恢复。

设备校准是保证数据质量的重要环节。视觉传感器需要校准内参（焦距、主点等）和外参（安装位置、姿态等）；力觉传感器需要校准零点和量程；关节传感器需要校准零位和传动比。校准参数会存储在设备的配置文件中，采集系统会定期检查和更新这些参数。

数据标注

虽然Ego采集可以大幅减少人工标注的工作量，但部分数据仍需要人工审核和标注。采用人机协作的方式可以平衡效率和成本。

标注任务的管理通常包括任务分发、进度跟踪、质量审核等环节。对于复杂场景，可能需要多轮审核和修订。标注结果会反馈到训练数据中，同时也会用于评估采集系统的性能和改进方向。

多模态数据对齐

多模态数据对齐是工业数据采集中最关键的技术点之一，也是系统设计的核心难点。

时间对齐

各传感器的工作频率差异巨大：视觉信号通常30fps到120fps，力觉信号可能达到1kHz以上，关节数据的刷新率则在数百赫兹不等。

为了实现时间对齐，系统采用固定时间窗口的策略。首先，定义基础时间窗口，比如100毫秒；然后，将所有传感器数据映射到该时间窗口内；最后，窗口内的数据被视为同一时刻的采样。

这种方法假设在时间窗口内，系统的状态变化是线性的。对于大多数装配动作，这个假设是合理的，因为它们的持续时间远大于时间窗口的宽度。但对于高速事件（如碰撞检测），可能需要更小的时间窗口来保证精度。

事件对齐

在装配过程中，机器人会执行各种动作事件：抓取、移动、插入、拧紧等。这些事件在视觉、力觉、触觉等信号上会有不同的表现形式。

系统通过事件检测算法识别这些动作边界，然后以事件为单元组织数据。同一事件内的多模态数据归为同一组，事件的起止时间、类型、物料ID等作为组的元数据。这种组织方式便于后续的训练任务按事件粒度调用数据。

事件检测的算法可以根据传感器信号的特点选择。对于视觉信号，可以利用动作识别模型检测动作边界；对于力觉信号，可以通过力峰值或力变化率检测接触事件；对于关节信号，可以通过速度、加速度的变化检测运动状态转换。

质量对齐

不同模态的数据质量可能不一致。视觉可能因为遮挡或光照问题而模糊，力觉可能因为传感器漂移而出现偏差。

系统会对每个模态分别评分，然后根据任务需求筛选数据。例如，对于视觉引导的装配任务，会优先保留视觉质量高的样本；对于力控任务，则更关注力觉数据的准确性。

质量评分的算法需要根据具体场景设计。常用的方法包括基于统计的异常检测、基于规则的阈值判断、基于模型的预测验证等。在实际部署中，通常会结合多种方法以提高准确性。

产线节拍适配

工业产线有严格的生产节拍，超时会直接影响产能。数据采集必须与产线节拍兼容，不能成为瓶颈。

采集模式选择

根据产线情况和任务需求，采集系统支持多种模式，各有优缺点。

在线采集模式

采集与生产同步进行，传感器实时捕获数据，对生产节拍的影响最小。但这种方式的数据质量和覆盖范围可能受限。由于采集系统不能干预生产流程，可能无法获取某些特定场景的数据。

龙旗科技的3C质检项目采用的就是这种模式。机器人在执行质检任务的同时进行数据采集，实现了生产和数据采集的完全同步。

离线采集模式

在生产间隙或专用时段进行采集，可以更灵活地控制采集条件，但会占用额外的时间和空间资源。这种方式适合数据量需求大、质量要求高的场景，但会增加采集成本。

仿真采集模式

在虚拟环境中模拟装配过程，生成合成数据。这种方式成本最低，可以快速生成大量数据，但与真实场景存在domain gap。仿真数据不能完全替代真实数据，但可以作为补充。

上海松应提出的"10%示教+80%合成+10%微调"混合体系就是综合运用了这三种模式的典型案例。通过合理配比，可以在保证数据质量的同时控制成本。

边缘处理

为了减少对产线网络的依赖，边缘计算单元承担了大量的预处理工作。

传感器数据的实时滤波和校准在边缘端完成，可以减少传输数据量并提高数据质量。异常检测和故障预警功能可以在边缘端实现快速响应，避免因网络延迟导致的处理不及时。数据质量的初步筛选在边缘端执行，只有通过筛选的数据才会传输到中心服务器。

边缘存储采用环形缓冲区机制，新数据会覆盖旧数据，保证关键事件不会因存储空间耗尽而丢失。当检测到异常事件时，相关数据会被锁定并上传到中心服务器进行详细分析。

采集效率优化

在保证数据质量的前提下，系统会尽可能提高采集效率。

一种常用方法是任务并行化。在机器人的空余时间（如物料等待、工序间隙等）进行数据采集，不影响正常生产节拍。这种方法需要精确的时序规划和事件触发机制。

另一种方法是数据复用。同一条数据可以用于多个训练任务，只需在标注时添加不同的标签。这种方法可以提高数据的利用率，降低采集成本。

数据有效性提升

工业场景数据的有效利用率一直是行业痛点。根据上海松应的数据，传统模式单条有效交互数据成本超过两元且边际递增，主要原因在于长尾场景的覆盖困难。

主动采样策略

针对长尾场景占比低的问题，系统采用主动采样策略。首先分析已采集数据的分布，识别覆盖不足的场景类型；然后调整采集参数，有针对性地获取长尾场景数据；最后结合仿真数据补充已知但采集成本过高的场景。

主动采样的关键在于如何识别"覆盖不足"。一种方法是基于统计的分布估计，通过分析现有数据的特征分布，识别稀疏区域；另一种方法是基于规则的启发式方法，根据专家知识定义需要优先覆盖的场景类型。

自监督学习方法

Ego数据的一个优势是可以利用时间连续性进行自监督学习。机器人执行装配任务时，相邻帧之间存在自然的时序关系，可以设计 pretext task（如帧预测、动作预测）来利用这些信息。

帧预测任务训练模型预测未来帧的视觉内容，这可以促进模型学习空间和时间特征。动作预测任务训练模型根据当前帧预测未来的动作类别，这可以促进模型学习动作相关的视觉特征。

这种方法可以在不增加人工标注的情况下，提升数据的使用效率。对于数据稀缺的工业场景尤为重要。

合成数据生成

对于难以采集的长尾场景，可以通过仿真生成合成数据。

仿真环境需要准确建模物理特性，包括重力、摩擦、碰撞、弹性等。领益智造的超级工厂在数据采集时就采用了这种思路，每颗螺丝扭矩绑定唯一SN码，实现全程可追溯，为仿真环境提供了精确的物理参数。

合成数据的关键挑战在于domain gap，即仿真环境和真实环境的差异。为了减小这个差异，需要尽可能提高仿真的逼真度，或者在真实数据上对合成数据进行微调。

总结

工业装配场景的Ego数据采集系统需要解决环境复杂性、时序同步、产线兼容、长尾覆盖等多方面挑战。

通过合理的架构设计，可以构建一套高效、可靠的采集系统。感知层负责多模态数据获取，需要针对工业环境的特点选择合适的传感器和部署方式；计算层完成实时处理和同步，边缘计算是保证系统实时性的关键；存储层提供分层数据管理，需要平衡容量、性能和成本；调度层实现任务规划，需要支持灵活的采集策略。

在实际部署中，还需要根据具体的产线条件、任务需求、成本约束进行定制化调整。没有放之四海而皆准的解决方案，但好的架构设计可以为后续的优化和扩展提供基础。

随着具身智能技术的快速发展，对高质量工业数据的需求将会持续增长。Ego第一视角采集作为一种高效、低成本的采集方案，将在未来的工业数据采集中发挥越来越重要的作用。