2025年12月26日,【想象·2025极新AIGC峰会】在上海浦东浦软大厦成功召开。青瞳视觉副总裁季耀辉先生在会上做了题为**《具身数据标注通往未来的迭代之路》**的演讲。重点分享了青瞳视觉的发展情况、发展历程以及他们在具身智能领域的一些成就和突破。

青瞳视觉副总裁 季耀辉
季耀辉重点提到以下几点:
"具身智能的核心是实现 "数据 - 算法 - 场景" 的闭环。"
"目前,具身智能行业的数据采集与标注已具备一定基础,部分企业已通过现有数据训练模型并取得初步效果,但仍存在诸多未解决的问题。"
"我们的技术创新以自研为核心,同时秉持开放合作的心态,积极联合行业伙伴,共同开发新产品、完善解决方案。"
以下内容为嘉宾分享实录,经极新整理,希望能给大家带来收获。
本次分享聚焦具身智能,目前我们已与智元、宇树机器人等头部机器人企业、无人机公司、AI 大模型公司及重点生产企业建立了广泛合作。
0 1
具身智能落地的重要挑 战
"具身智能的核心是实现 "数据 - 算法 - 场景" 的闭环"
青瞳视觉在具身智能领域的核心任务,是数据采集与数据标注服务。这一业务对具身智能的发展至关重要,2024 年至 2025 年,具身智能数据采集与标注行业发展迅猛,投融资活动十分活跃。作为技术驱动型企业,我们更关注技术发展带来的新要求与潜在市场机遇。
从国外马斯克旗下的相关企业,到国内优秀的机器人企业,人形机器人及各类专业机器人的发展速度令人瞩目。它们的能力不断升级,从春晚舞台上的舞蹈表演,到如今完成复杂任务,未来还将涉足老人看护、医疗辅助、生产线自动操作等多个领域。要实现这些复杂功能,核心前提是获得高质量、高精度的训练数据 ------ 机器人需要通过这些数据快速学习技能,并在实际操作中通过反馈持续优化,这正是具身智能发展的关键所在。
用通俗的逻辑解释,具身智能的核心是实现 "数据 - 算法 - 场景" 的闭环:机器人需要 "看见""听见""触摸" 这个世界,获得实时反馈,从复杂数据中提取有效信息,指导后续决策与行动;行动后产生的新数据又将作为下一轮学习的基础,形成持续迭代的循环。
当前,部分具身智能领域已展现出令人惊叹的成果,自动驾驶就是典型代表。自动驾驶汽车通过激光传感器或纯视觉传感器,能够精准识别道路标线、指示牌、行人、非机动车及各类突发情况,并迅速作出反应。这一能力的背后,是数亿甚至数十亿公里的海量数据采集,以及对这些数据的详细标注与持续迭代训练 ------ 这也正是具身智能领域的核心发展逻辑:在不断迭代、学习与成长中,逐步掌握复杂任务。
对比不同阶段的 AI 模型,数据需求的复杂度呈阶梯式上升:纯文本的大语言模型(如早期 ChatGPT),仅需文本数据进行训练,互动与评价也以对话为主;进入多模态时代,视觉大模型需要处理数以亿计、甚至数百亿计的图片与视频动态视觉信息;驾驶大模型的需求更为复杂,不仅需要视觉数据,还需结合任务目标、操作行为及结果反馈,进行综合判断;而具身大模型的复杂度又上了一个维度。
以简单的 "拿起一瓶水" 为例,机器人需要判断瓶子的软硬程度,控制合适的力度 ------ 既不能过大导致捏坏瓶子,也不能过小导致瓶子滑落。在复杂场景中,如操作精密机器时,机器人需要精准控制机械臂的角度、端点位置与力度;在化工反应场景中,还需结合温度、压强等多维度参数。这些需求使得具身智能的数据采集在密度、维度上呈指数级增长,数据标注的难度也随之大幅提升。此外,还需解决数据时间轴对齐、节拍一致等问题,更要应对执行过程中的偏差修正 ------ 如何在偏离预设方向时及时调整,是具身智能落地的重要挑战。
目前,具身智能行业的数据采集与标注已具备一定基础,部分企业已通过现有数据训练模型并取得初步效果,但仍存在诸多未解决的问题。当前技术更多能应对移动相关的基础需求,通过平面坐标系、标定、避障等简单逻辑实现功能,但在高维度、高精度操作(如力度控制)、现实与数字信号的双向转换等方面,仍有巨大提升空间。例如,从现实世界采集数据并转化为数字信号,再将训练成果还原到现实场景,这一过程存在采样局限与信息提炼的双重挑战,如何确保还原过程的准确性与稳定性,是行业面临的核心难题。
当前主流的四种数据采集方式均存在明显弊端:纯真人采集效率极低;虚拟数据易与现实脱节;纯视觉数据缺乏多维度参考,只能实现部分采样;而现实信息的抽象提取与还原过程,经过两层转换后易出现模拟失真。
针对这些痛点,青瞳视觉提出了优化方案 ------ 虽无法一劳永逸解决所有问题,但实现了显著突破:
第一,实现多模态采集。通过统一操作流程,同步采集视频、音频、触感、反馈等数据,未来还将拓展温度等更多指标,确保数据的完整性与持续性。
第二,提升采集精度与稳定性。依托传统光学技术优势,实现比惯性采集等常规手段更高的定位精度;同时通过多模态数据互补,解决光学摄像头遮挡问题 ------ 遮挡时由惯性系统提供数据支持,光学系统恢复工作后再对惯性数据进行校准,实现快速、完整、准确的数据采集。
第三,实现数据复用与场景适配。一次采集的数据可适配多种终端、不同类型的机械手与机械臂;采集方案具备强环境适应性,可应用于露天场景、实际生产车间等复杂环境;通过自主设计的流程方案实现数据倍增,突破纯真人采集的局限。
02
解决方案 还需多元
"我们的技术创新以自研为核心,同时秉持开放合作的心态,积极联合行业伙伴,共同开发新产品、完善解决方案。"
具体来看,我们的方案整合了光学传感器、惯性传感器、力反馈传感器(可采集法线方向与切线方向的摩擦力数据)及温度等其他传感器,通过光学系统对采集环境进行校准,进一步提升数据准确率与质量。这套方案能够实现高准确度、高适应性的多模态数据采集,结合与各行业客户合作开展的数据标注与数据倍增工作,可满足大批量、快速采集的需求,服务于机器人、汽车生产企业、智慧工厂、智慧物流等多个行业。
除了核心的触觉手套 + 光学捕捉方案,我们还针对不同行业需求,打造了多元化的解决方案:
-
精准定位与性能评测:光学定位方案的重复定位精度可达 0.01 毫米,已成为机器人行业行为准确度的核心评测标准,我们在苏州设立的评测中心,可承接各类人形机器人及专业机器人的性能评测业务;
-
灵巧手精准操作:通过在手上贴光学触点的方式,实现无需手套的高精度细致操作;
-
多场景数据采集:涵盖遥操作、工厂实地训练数据采集,无人机、机器狗在强红外光、日光照射等特殊环境下的采集,仿生机器人、机械臂操作采集,以及水下采集(已解决能见度、折射等水下环境带来的影响);
-
柔性对象采集:针对易形变、易误识别的柔性采集对象,通过技术创新实现精准检测与采集。
我们的技术创新以自研为核心,同时秉持开放合作的心态,积极联合行业伙伴 ------ 例如与触觉传感器技术领先但光学领域薄弱的企业合作,共同开发新产品、完善解决方案。在此,我们诚挚欢迎行业内各类企业与我们对接:无论是有业务需求,还是拥有可补充我们技术短板的优质方案,都期待与大家携手,共同开拓这一对国计民生与市场发展具有重要意义的新兴领域。