一、智能驾驶数据预处理的行业挑战
随着智能驾驶技术的逐级演进,数据驱动的模型训练范式对数据预处理环节提出三大挑战:
-
数据孤岛化:需整合摄像头、LiDAR、毫米波雷达、V2X通信等多模态数据,传统ETL工具难以实现高效集成。
-
任务爆炸式增长:单辆测试车每日产生可达50TB 数据,需支持百万甚至千万级任务并发调度与弹性扩容。
-
开发运维一体化需求:要求数据流水线具备高可用性(99.99% SLA)、动态弹性扩容能力,并兼容TensorFlow、PyTorch 等 AI 框架。
在智驾数据处理与开发方案中,大数据开发治理平台 DataWorks 可在数据集成、开发与任务调度阶段,提供一站式的开发、调度与治理能力,支持数据研发工程师进行数据建模开发、任务调度、数据资产管理等操作,确保数据能够被高效地处理和利用,可支持对海量数据的千万级任务调度与管理,为智能驾驶的数据分析和模型训练奠定基础。
二、DataWorks核心能力解析
千万级任务调度引擎:破解数据洪流困局
当前,智能驾驶数据处理或开发阶段的调度技术方案普遍基于 Airflow/Argoflow 任务调度引擎或脚本等方式对任务进行调度,万级任务场景下 Argo Workflow 因任务依赖嵌套和资源锁冲突产生调度延迟,单日任务吞吐量难以突破 10 万量级,同时当资源配额冲突或需要跨系统调优时需额外投入研发资源处理,运维压力极大,使得整个智能驾驶生产线遭遇性能瓶颈。
DataWorks 超大规模周期性任务调度系统可支撑日千万级调度,久经阿里巴巴"双11"考验,性能与稳定性业界领先。
DataWorks 相较于 Argo & Airflow,对比和功能差异如下:


Argo vs Airflow vs DataWorks功能对比表
DataWorks可通过以下能力实现海量数据下的千万级任务调度,为智能驾驶的数据分析和模型训练奠定基础。
-
分钟/小时/天/周/月/年周期调度
-
触发式调度,可自定义调度日历
-
数据预处理任务与算法任务的统一编排与调度,支持跨多种计算引擎的可视化任务流程编排
-
循环/分支/归并等流程控制任务,赋值节点、上下文传参,调度参数、工作空间全局参数
-
跨周期任务依赖,依赖成环与孤立节点自动检测
-
任务出错可自动重试
借助 DataWorks 自研一站式大数据运维监控平台,支持实时查看任务运行状态,提供智能诊断、重跑等运维操作,帮助用户对异常任务进行基础运维;提供智能基线,可解决重要任务产出时间不可控,海量任务监控难的问题,保障任务产出的时效性;提供调度、资源等多方位的运维能力,轻松管理和管理调度任务。
数据集成:多领域数据汇聚
在进行智能驾驶数据预处理时,需要将多源数据进行整合,进行数据建模开发、数据血缘及数据资源管理。
DataWorks 的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。支持离线同步、实时同步,以及离线和实时一体化的全增量同步。采用星形引擎架构,数据源接入数据集成后,即可与其他各类型数据源组成同步链路进行数据同步。适用于数据入湖入仓、分库分表、实时数据归档、云间数据流转等数据传输场景。

引擎架构
在智能驾驶数据预处理解决方案中,通过以下能力实现多源数据集成,构建统一数据湖仓:
-
覆盖丰富异构数据源:支持 MySQL、Oracle、MongoDB、MaxCompute、Hologres、OSS、Kafka 等几十种数据源直连;
-
丰富的同步方案:数据入湖、整库迁移、增量同步、分库分表同步、全增量一体化同步;
-
离线同步提供数据读取(Reader)和写入插件(Writer),以实现对数据源的读写操作。
-
实时同步支持将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步。
-
提供多种数据源之间进行不同数据同步场景(整库离线同步、全增量实时同步)的同步。
全链路数据开发能力:构建标准化预处理流水线
数据开发 Data Studio 是阿里巴巴基于10余年大数据建设经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化 ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持 Python 开发、Notebook 分析与 Git 集成,Data Studio 还支持丰富多样的插件生态,实现了实时离线一体化、湖仓一体化、大数据AI一体化,助力"Data+AI"全生命周期的数据管理。

数据开发平台全景图
通过以下能力实现智能驾驶数据预处理一体化开发效率提升。
-
可视化工作流编排:通过可视化拖拽方式整合多种类型的子任务节点,便捷地建立任务上下游关系,加速数据处理流程的搭建,可快速构建端到端数据流,有效提升任务开发效率;
-
湖仓一体多引擎协同数据开发平台:支持湖与仓统一元数据管理、数据入湖、统一数据开发 WebIDE、统一任务编排调度;
-
Data+AI协同开发:支持数据集成、Notebook、Python、Shell、MaxCompute、Hologres、Flink、EMR、AI 算法等多种节点的开发,支持支持自定义个人开发环境容器镜像,全面支持 Python 开发生态,支持大数据计算引擎 SQL 与 Python 交互式协同开发;
-
DataWorks Copilot 智能助手:全面推出 DataWorks Copilot 智能助手,支持各类计算引擎 SQL 及Python 的代码生成与补全;通过丰富的 AI Agents 提供自然语言交互界面(LUI),为数据开发全面提效;
数据资产管理:打造智能驾驶数据资产全景图
DataWorks的数据治理模块可对智能驾驶业务中的结构化数据和非结构化数据进行统一的管理。
-
元数据服务:帮助用户进行智能驾驶相关数据资产的有序组织,通过类目导航、数据专辑等方式从全局或专业视角对数据进行分类管理,同时根据表、字段、指标、描述等多元素全局搜索能力,查看基础元模型、Schema详情、产出信息、热度信息、使用记录、业务描述、使用说明等数据的详细信息,从而实现快速查找数据、理解数据和使用数据,助力数据的便捷消费。
-
数据血缘: 从原始数据文件到训练数据集,从模型训练到模型的部署和在线推理服务,DataWorks可实现Data+AI 资产全链路血缘端到端还原,追溯模型训练涉及的数据/任务,加速智能驾驶数据处理与开发的持续迭代。
三、典型应用场景:某智驾端到端数据产线百万级任务调度
某智驾场景需对采集的数据进行清洗、转换和准备等工作,生成对模型训练有用的数据,自建 Airflow 调度方案存在无法稳定运行、无法提供任务监控、无法按时产出等痛点,需要实现百万级的任务管理、开发调度及数万任务并发运行能力、对结构化、非结构化元数据统一管理能力、数据产线关键指标监控能力、调度稳定性和高可用能力。通过阿里云 DataWorks 技术方案完成对Airflow替换,支持快速推进端到端智驾方案量产。
业务价值:
-
调度规模:DataWorks 支持百万级任务管理及开发调度,现阶段支持上万任务并发运行,产能达到数万 clips/天,持续突破调度瓶颈;
-
混合调度:DataWorks 支持CPU/GPU资源任务混合调度,涵盖主流GPU资源;
-
智能监控:DataWorks 提供智能基线/自定义规则等监控手段和多种触达方式,其中智能基线为业界首创;
-
产出耗时: DataWorks 通过单任务多 worker 并行优化,大幅降低子任务数,降低20%环境准备耗时,提升稳定性,通过算子优化、数据集挂载优化等手段,相同资源下,产能提升1倍;
-
元数据:DataWorks 支持对结构化、非结构化元数据统一管理;
-
Data+AI:DataWorks 支持 MaxCompute、PAI、Python 等多个节点类型的海量任务调度;
四、未来展望:从数据预处理到车云协同的智能化升级
未来,DataWorks将进一步拓展智能驾驶场景,通过持续强化数据集成、千万级调度与大数据AI一体化开发,驱动智能驾驶技术进入"数据定义驾驶智慧"的新纪元。