Vision-Language-Action 模型在自动驾驶中的应用(VLA4AD)

自动驾驶技术的核心诉求是让车辆在复杂动态的交通环境中,实现感知、决策与控制的闭环协同。传统模块化方案通过拆分感知、预测、规划、控制等独立模块实现功能,但模块间的信息割裂导致其在长尾场景(如突发的救护车避让、道路施工临时管制)和人机交互场景中表现脆弱。近年来,多模态大语言模型(MLLM)的爆发式发展,推动了视觉 - 语言 - 动作(Vision-Language-Action, VLA)范式的出现 ------ 这种将视觉感知、自然语言理解与控制指令融合于单一模型的架构,为解决自动驾驶的 "可解释性" 与 "动作闭环" 难题提供了全新思路。

本文将对首篇全面覆盖自动驾驶领域 VLA 范式的综述论文《A Survey on Vision-Language-Action Models for Autonomous Driving》进行深度精读,系统拆解 VLA4AD(Vision-Language-Action for Autonomous Driving)的技术演进、架构设计、数据集、训练评估方法、核心挑战与未来方向。

原文链接:https://arxiv.org/pdf/2506.24044

代码链接:https://github.com/JohnsonJiang1996/Awesome-VLA4AD

沐小含持续分享前沿算法论文,欢迎关注...

一、自动驾驶技术的四阶段演进

论文将自动驾驶技术的发展划分为四个核心范式,清晰展现了从 "模块化拆分" 到 "多模态融合闭环" 的演进逻辑,下图展示了三个核心范式(除了经典模块化流水线范式)。

图 1 自动驾驶范式对比:(a) 端到端方案直接映射感知到控制,但缺乏可解释性;(b) VLM4AD 引入语言推理,但未闭环动作;(c) VLA4AD 融合感知、推理、动作,实现可解释的闭环控制。

1.1 经典模块化流水线(Classical Modular Pipelines)

这是自动驾驶的早期主流方案,以 DARPA 城市挑战赛中的车辆为代表,将驾驶任务严格拆分为感知、预测、规划、控制四个独立模块:

  • 感知模块:通过 LiDAR、雷达、摄像头等传感器识别道路目标(如车辆、行人、交通灯);
  • 预测模块:基于历史轨迹预测其他交通参与者的未来行为;
  • 规划模块:通过有限状态机或图搜索生成可行路径;
  • 控制模块:通过 PID 或 MPC 算法执行转向、油门、刹车指令。

优势 :模块化设计便于单独调试、测试和优化,在工业界得到广泛应用;缺陷:模块间信息割裂,上游误差会逐级传播(如感知漏检会导致规划决策失误),且难以处理需要跨模块推理的长尾场景。

1.2 端到端自动驾驶(End-to-End Autonomous Driving)

为解决模块化方案的信息损失问题,端到端方案直接将原始传感器数据映射为控制指令,跳过手工设计的中间模块(如图 1 (a) 所示):

  • 核心逻辑:以 "视觉 - 动作(VA)" 为核心,通过神经网络学习从传感器输入到驾驶动作的端到端映射;
  • 代表性方法:
    • UniAD:基于栅格化表示(语义图、占用图等)实现多任务融合,但计算开销大;
    • VAD:采用全向量化场景表示,以更高效率实现端到端规划;
    • PolarPoint-BEV:通过极坐标点编码优化 BEV 表示,增强对不同距离目标的关注度;
  • 优化方向:为缓解数据稀疏性和解空间过大问题,部分方法引入中间监督(如集成感知 - 预测任务)、图结构建模(GraphAD)、稀疏架构(SparseAD)等。

优势 :减少模块间误差传播,简化系统设计;缺陷

  • 语义脆弱性:对罕见场景泛化能力差;
  • 推理不透明:决策过程难以解释,不利于安全审计;
  • 缺乏语言交互能力:无法理解人类自然语言指令。

1.3 自动驾驶视觉语言模型(VLMs for Autonomous Driving)

为增强端到端模型的可解释性和泛化能力,研究者将视觉语言模型(VLM)引入自动驾驶,形成 "视觉 - 语言(VL)" 融合方案(如图 1 (b) 所示):

  • 核心逻辑:通过大规模图文预训练,让模型学习 "像素 - 文本" 的对齐关系,既能完成感知任务,又能生成自然语言解释;
  • 典型应用:
    • 场景解释:如描述 "救护车正在超车,需避让";
    • 决策 justification:如解释 "因红灯亮起而停车";
    • 长尾场景泛化:利用 VLM 的常识知识识别罕见目标(如施工标志、特殊车辆)。

优势 :提升可解释性和零样本泛化能力;缺陷:仍为 "感知 - centric",语言输出与控制指令松耦合 ------ 模型仅能解释场景,无法直接生成驾驶动作,且存在语言幻觉(如虚构 hazards)或口语指令误解问题,未解决 "动作鸿沟"(action gap)。

1.4 自动驾驶视觉 - 语言 - 动作模型(VLA4AD)

这是当前最前沿的范式,将视觉感知、语言理解、动作控制融合于单一政策网络(如图 1 (c) 所示),实现 "感知 - 推理 - 动作" 的闭环:

  • 核心突破:引入 "动作头(Action Head)",让语言不仅用于解释,更直接指导决策和控制;
  • 三大核心能力:
    1. 遵循自由形式指令:如 "避让救护车""在超市门口停车";
    2. 生成决策理由:实时输出自然语言解释(如 "前方有行人横穿,减速避让"),便于事后验证;
    3. 长尾场景推理:利用互联网规模的图文预训练知识,处理未见过的场景(如道路临时施工、行人手势指挥)。

技术驱动因素

  1. 数据支撑:nuScenes、Impromptu VLA 等大规模多传感器数据集提供丰富监督;
  2. 模型效率优化:LoRA 等低秩适配技术、TS-VLM 等 token 缩减设计降低大模型部署开销;
  3. 合成数据与交互数据集:SimLingo、NuInteract 等支持在仿真环境中测试语言条件下的驾驶行为。

二、VLA4AD 的核心架构设计

VLA4AD 的架构核心是 "多模态输入 - 跨模态融合 - 动作输出" 的端到端流水线,论文将其拆解为三大模块:多模态输入与语言指令、核心架构模块、驾驶输出,具体如下:

图 3 VLA4AD 模型演进:从左到右依次为(1)语言仅作为解释器;(2)模块化 VLA,语言指导规划;(3)端到端 VLA,直接映射输入到动作;(4)推理增强型 VLA,融合工具使用和 CoT 推理。

2.1 多模态输入与语言指令

VLA4AD 需要同时捕捉环境状态和人类意图,输入包含三类关键信息:

(1)视觉数据(Visual Data)
  • 演进路径:从单目前视摄像头→立体摄像头→多视角环视系统,逐步提升空间覆盖能力;
  • 表示形式:
    • 原始图像:直接输入神经网络处理;
    • 结构化表示:通过 BEV(鸟瞰图)投影将 2D 图像转换为 3D 空间特征,便于空间推理;
    • 动态适配:部分模型(如 DynRsl-VLM)可根据场景动态调整输入分辨率,平衡实时性和细节捕捉。
(2)其他传感器数据(Other Sensor Data)
  • 几何传感器:LiDAR(提供精确 3D 结构)、雷达(测速)、GPS(定位);
  • 动态传感器:IMU(惯性测量单元,捕捉车辆运动状态)、 proprioceptive 数据(转向角、油门、加速度,用于行为预测和闭环控制);
  • 融合目标:构建 "空间 - 时间" 统一表示,弥补单一传感器的局限性(如 LiDAR 抗雨雾能力强,摄像头语义识别优)。
(3)语言输入(Language Inputs)

语言是人机交互和常识推理的核心,其形式随技术演进不断丰富:

  • 基础指令:导航命令(如 "下个路口左转""红灯停车");
  • 环境查询:交互式问题(如 "现在变道安全吗?""当前限速多少?");
  • 任务级描述:交通规则解析、高层目标定义(如 "避开施工区域,选择最短路线");
  • 高级形式:多轮对话、思维链(CoT)提示、工具增强语言接口,甚至语音输入(通过语音识别转换为文本)。

2.2 核心架构模块

核心模块负责将多模态输入融合为统一特征,并映射到动作空间,包含三大组件:

(1)视觉编码器(Vision Encoder)
  • 骨干网络:采用自监督预训练模型(如 DINOv2、ConvNeXt-V2、CLIP)提取视觉特征;
  • 3D 增强:部分模型引入点云编码器(如 PointVLA)或体素模块(3D-VLA),直接处理 LiDAR 的 3D 点云数据;
  • 多尺度融合:通过语言引导的注意力机制,让视觉编码器聚焦于与任务相关的区域(如 "救护车""行人")。
(2)语言处理器(Language Processor)
  • 基础模型:采用预训练大语言模型(如 LLaMA2、GPT 系列、Qwen)处理文本输入;
  • 适配策略:
    • 指令微调:通过 Visual Instruction Tuning 注入驾驶领域知识;
    • 高效适配:采用 LoRA 等低秩更新技术,在不微调全部参数的情况下适配大模型;
    • 检索增强:如 RAG-Driver,通过检索记忆库中的历史驾驶案例,辅助当前决策。
(3)动作解码器(Action Decoder)

动作解码器是 VLA4AD 与 VLM4AD 的核心区别,负责将融合特征映射为驾驶动作,主流实现方式有三种:

  • 自回归 Tokenizer:将离散动作或轨迹关键点序列化为 token,逐次预测(如连续转向角离散为多个 token);
  • 扩散模型头(Diffusion Heads):如 DiffVLA、Diffusion-VLA,通过扩散过程生成连续控制指令,适合处理不确定性场景;
  • 分层控制器:如 ORION,由语言规划器生成子目标(如 "100 米后变道"),再由低 - level PID/MPC 控制器执行具体动作;
  • 其他形式:Flow-matching、策略梯度(如 GRPO、DPO)等,用于强化学习优化的场景。

2.3 驾驶输出(Driving Outputs)

输出形式反映模型的抽象层次和应用场景,主要分为两类:

(1)低级别动作(Low-Level Actions)
  • 直接输出:转向角、油门、刹车等原始控制信号;
  • 表示形式:连续值或离散 token;
  • 优势:细粒度控制,可直接对接车辆执行器;
  • 缺陷:对感知误差敏感,缺乏长时域规划能力。
(2)轨迹规划(Trajectory Planning)
  • 输出形式:BEV 或车辆坐标系下的未来轨迹(如未来 5 秒的路径点序列);
  • 执行方式:通过 MPC 等下游规划器将轨迹转换为控制信号;
  • 优势:稳定性强,可整合多模态上下文进行长时域推理(如预测 5 秒后车辆位置并规划避障路径)。

三、VLA4AD 的技术演进脉络

论文将 VLA4AD 的发展划分为四个阶段,清晰展现了 "语言从被动解释到主动决策核心" 的演进过程,如图所示:

文中总结了2023-2025年期间具有代表性的VLA4AD模型(下表),阐述了其输入模态、语言整合方式、动作输出形式、评估所用数据或环境及其核心贡献。

3.1 前 VLA 阶段:语言模型作为解释器(Pre-VLA: Language Model as Explainer)

  • 核心定位:语言仅用于场景解释,不参与决策;
  • 典型方案:如 DriveGPT-4,通过冻结的 VLM(如 CLIP)提取视觉特征,再由 LLM 生成场景描述(如 "前方有行人横穿马路")或动作标签(如 "减速");
  • 缺陷:
    • 语言与控制脱节:实际驾驶动作仍由传统 PID 控制器执行,语言仅为 "附加解释";
    • latency 问题:每帧生成长文本解释导致实时性差;
    • 冗余计算:通用视觉编码器关注与驾驶无关的细节(如路边广告)。
  • 优化方向:TS-VLM 通过文本引导的软注意力池化聚焦关键区域,DynRsl-VLM 动态调整输入分辨率,提升效率。

3.2 模块化 VLA4AD(Modular VLA4AD)

  • 核心突破:语言成为规划模块的输入,直接指导决策,但仍依赖多阶段流水线;
  • 典型方案:
    • OpenDriveVLA:融合摄像头 / LiDAR 数据与文本路线指令(如 "在教堂处右转"),生成中间 waypoint(如 "20 米后右转,随后直行"),再转换为轨迹;
    • CoVLA-Agent:将视觉 / LiDAR 特征与文本提示融合,通过 MLP 将动作 token(如 "左转")映射为轨迹;
    • DriveMoE:采用混合专家(Mixture-of-Experts)架构,通过语言线索动态选择子规划器(如 "超车专家""跟车专家");
    • SafeAuto:引入形式化逻辑表达的交通规则,验证并否决语言驱动的不安全规划。
  • 优势:减少语言与动作的语义鸿沟,提升决策透明度;
  • 缺陷:多阶段流水线导致 latency 增加,模块间误差传播风险仍存在。

3.3 端到端 VLA4AD(Unified End-to-End VLA4AD)

  • 核心突破:将感知、语言理解、动作生成整合为单一可微分网络,实现 "输入→输出" 的直接映射;
  • 典型方案:
    • EMMA:在 Waymo 数据上训练大规模 VLM,联合执行目标检测和运动规划,共享特征表示;
    • SimLingo/CarLLaVA:基于 LLaVA 在 CARLA 仿真环境中微调,引入 "动作梦境(action dreaming)" 技术 ------ 通过改变语言指令生成多样化轨迹,强化语言与动作的耦合;
    • ADriver-I:通过扩散模型学习 latent 世界模型,预测动作对应的未来摄像头帧,实现 "通过想象后果进行规划";
    • DiffVLA:融合稀疏(waypoint)和稠密(占用栅格)扩散预测,生成符合文本描述的安全轨迹。
  • 优势:低 latency,无模块间误差传播,传感器 - 动作映射更直接;
  • 缺陷:长时域推理能力弱,决策解释性不足。

3.4 推理增强型 VLA4AD(Reasoning-Augmented VLA4AD)

  • 核心突破:将 LLM/VLM 置于控制闭环中心,引入记忆、思维链(CoT)推理,强化长时域规划和交互能力;
  • 典型方案:
    • ORION:结合 QTFormer 记忆模块(存储数分钟的观测和动作历史)与 LLM,生成轨迹和对应的自然语言解释;
    • Impromptu VLA:在 8 万条长尾场景数据上训练,学习 "先推理后动作" 的逻辑 ------ 先 verbalize 决策路径(如 "前方施工,需减速并变道至左侧车道"),再生成动作;
    • AutoVLA:将连续轨迹 token 化为离散 "驾驶 token",通过自回归 transformer 融合 CoT 推理和轨迹规划,在 nuPlan 和 CARLA 上实现 SOTA 闭环成功率。
  • 优势:具备长时域推理、多轮交互和可解释性,接近人类驾驶决策逻辑;
  • 挑战:需平衡 LLM 推理 latency 与 30Hz 以上的实时控制需求,且需验证语言推理的逻辑一致性。

四、VLA4AD 的数据集与基准测试

高质量数据集是 VLA4AD 发展的基础,论文整理了当前主流数据集,覆盖 "真实场景 - 仿真场景""普通场景 - 长尾场景""感知 - 推理 - 动作" 全维度,具体如下表所示(表 2):

数据集核心特点总结

  1. 真实性与仿真互补:BDD100K、nuScenes 提供真实场景多样性,CARLA-based 数据集(如 Bench2Drive)支持安全的长尾场景测试;
  2. 语言标注精细化:从简单描述(BDD-X)→ 思维链推理(Reason2Drive)→ 多轮交互(NuInteract),逐步提升语言与驾驶任务的耦合度;
  3. 任务覆盖全面:涵盖感知(检测)、推理(QA)、动作(轨迹 / 控制)全链路,支持端到端评估。

五、训练与评估策略

VLA4AD 的训练需同时满足 "驾驶安全" 和 "语言保真" 两大目标,评估则需覆盖控制性能、语言能力、鲁棒性等多维度。论文详细梳理了当前主流的训练范式和评估协议:

5.1 训练范式

(1)有监督模仿学习(Supervised Imitation Learning, IL)
  • 核心逻辑:让模型模仿人类专家的驾驶行为,最小化控制信号或轨迹的 L2 损失或交叉熵损失;
  • 典型应用:
    • CoVLA-Agent:每帧同时学习未来路径和场景描述;
    • CarLLaVA:在 SimLingo 的百万级仿真数据上进行行为克隆;
  • 优势:训练稳定,易于规模化;
  • 缺陷:泛化能力受限,对长尾场景(如事故、极端天气)缺乏监督;
  • 改进方案:DAgger-style 噪声滚动、长尾场景增强。
(2)强化学习(Reinforcement Learning, RL)
  • 核心逻辑:在仿真环境(CARLA、Bench2Drive)中通过试错学习,优化路线完成率、避撞、交通规则遵守等奖励;
  • 典型应用:
    • LangCoop:通过 RL 优化车辆间的语言协作(如路口会车时的意图沟通);
    • SafeAuto:将交通规则作为硬约束或惩罚项,强化安全行为;
  • 挑战:如何平衡 "驾驶奖励" 与 "语言保真度"------ 当前多冻结 LLM 仅优化控制部分,未充分利用文本与动作的联合梯度。
(3)多阶段训练(Multi-stage Training)

这是当前最主流的训练流程,分为四步:

  1. 预训练:在大规模图文 / 视频数据集上预训练视觉编码器(如 CLIP)和语言模型(如 LLaMA),学习通用多模态特征;
  2. 模态对齐:在 "图像 - 文本 - 动作" 配对数据上微调,通过跨模态对比损失绑定场景特征、语言提示和控制 token(如 DriveMonkey 在 NuInteract 上微调);
  3. 目标增强:注入长尾场景(如 SimLingo 的特殊场景)和规则约束,结合 RL 优化边缘案例性能;
  4. 模型压缩:通过 LoRA、混合专家(MoE)、师生蒸馏等方法,降低模型计算开销,适配车载硬件。
(4)关键优化点:语言与控制的平衡
  • 联合损失:如 CoVLA-Agent 采用 L = L_traj + λL_cap,同时优化轨迹和文本生成;
  • 交替更新:一批数据优化驾驶任务,下一批优化语言任务,避免梯度干扰;
  • 冻结 LLM:仅训练轻量级适配器(Adapter),在保证语言流畅性的同时降低计算成本。

5.2 评估协议

VLA4AD 的评估需兼顾 "驾驶能力" 和 "语言能力",论文提出四大核心评估维度:

(1)闭环驾驶性能(Closed-loop Driving)
  • 核心指标:路线完成率(CARLA/Bench2Drive)、违规次数(碰撞、闯红灯、偏离车道)、规则遵守度;
  • 典型优化:DiffVLA 通过 PDMS 层将违规率降低 50%。
(2)开环预测性能(Open-loop Prediction)
  • 核心指标:轨迹 L2 误差、碰撞率(nuScenes 挑战)、目标达成率(指令条件下)、辅助感知任务的 mAP/IoU、 latency/FPS;
  • 效率优化:TS-VLM 通过 token 池化将计算量降低 90%。
(3)语言能力(Language Competence)
  • 核心指标:
    • 指令跟随准确率(SimLingo 的 Action-Dreaming 基准);
    • 自动评估:BLEU、CIDEr(NuInteract、DriveLM);
    • 逻辑一致性:Reason2Drive 的推理链一致性评分;
    • 人工评估:BDD-X 风格决策理由的人类打分。
(4)鲁棒性与压力测试(Robustness & Stress)
  • 测试场景:传感器扰动(模糊、遮挡、延迟)、对抗性提示(如口语化指令、多语言混合)、分布外场景(未见过的交通标志、天气);
  • 典型方法:DynRsl-VLM 分析分辨率动态调整对鲁棒性的影响。

评估现状:当前评估多为单维度独立测试(如 CARLA 评估控制,NuInteract 评估语言),缺乏统一的 "AI 驾照" 式基准 ------ 需同时融合控制可靠性、语言保真度和人机协同能力。

六、核心挑战与未来方向

6.1 亟待解决的六大挑战

(1)鲁棒性与可靠性(Robustness & Reliability)
  • 核心问题:LLM 可能产生语言幻觉(如虚构障碍物)、误解口语指令;模型在传感器噪声(雨雾、眩光)和长尾场景下稳定性差;
  • 未解决问题:缺乏 "社会合规" 驾驶政策的形式化验证(如如何平衡 "避让行人" 与 "不影响后车")。
(2)实时性能(Real-time Performance)
  • 核心矛盾:视觉 Transformer+LLM 的计算开销大,需满足车载硬件≥30Hz 的实时控制需求;
  • 潜在方案:token 缩减(TS-VLM)、硬件感知量化、事件触发推理(仅在场景变化时激活大模型)。
(3)数据与标注瓶颈(Data & Annotation Bottlenecks)
  • 核心问题:"图像 + 控制 + 语言" 三模态标注稀缺且昂贵(如 Impromptu VLA 需 8 万条人工标注 clip);非英语方言、交通口语、法律相关表述的覆盖不足;
  • 缓解方向:合成数据(SimLingo)、弱监督 / 自监督学习。
(4)多模态对齐(Multimodal Alignment)
  • 核心问题:当前模型以摄像头为中心,LiDAR、雷达、HD 地图、时序状态的融合不充分;缺乏时间一致的异模态融合框架;
  • 现有尝试:BEV 点云投影、3D token 适配器、ORION 的语言历史总结。
(5)多智能体社会复杂性(Multi-agent Social Complexity)
  • 核心问题:密集交通场景下,车辆间如何通过 "交通语言" 高效协作?如何防范恶意消息攻击?
  • 研究方向:加密 V2V 通信、手势 - 文本对齐(如识别交警手势并转换为驾驶指令)。
(6)域适配与评估(Domain Adaptation & Evaluation)
  • 核心问题:仿真到真实场景的迁移差距、跨地区交通规则适配(如左行 / 右行)、持续学习中的灾难性遗忘;缺乏统一的监管评估标准;
  • 关键需求:定义覆盖控制、解释、协同的 "AI 驾驶考试"。

6.2 五大未来研究方向

(1)基础模型级驾驶模型(Foundation-scale Driving Models)
  • 目标:构建类似 GPT 的 "驾驶基础模型",基于海量多传感器数据(行车记录仪、LiDAR、HD 地图、交通规则文本)自监督预训练;
  • 能力:通过提示词或 LoRA 快速适配下游任务(如不同城市、不同车型),无需大规模微调。
(2)神经符号安全内核(Neuro-symbolic Safety Kernels)
  • 思路:融合神经网络的灵活性与符号逻辑的可验证性 ------ 神经 VLA 模型输出结构化动作程序或 CoT 计划,由符号验证器执行安全检查;
  • 案例:ORION 的语言记忆模块已初步具备结构化输出能力。
(3)车队级持续学习(Fleet-scale Continual Learning)
  • 方案:部署的自动驾驶车队将长尾场景以 "语言摘要" 形式上传(如 "x 路口出现新型施工标志"),云端聚合后更新模型,再推送给车队;
  • 优势:避免上传原始传感器数据,降低带宽开销,快速积累罕见场景知识。
(4)标准化交通语言(Standardised Traffic Language)
  • 目标:设计类似航空 ICAO 术语的约束性交通语言(如 "我避让你""前方障碍物"),实现车辆间高效、无歧义协作;
  • 技术路径:利用 MoE(DriveMoE)或 token 缩减 LM(TS-VLM)降低 V2V 通信带宽。
(5)跨模态社会智能(Cross-modal Social Intelligence)
  • 目标:让车辆理解非语言社交信号(交警手势、行人挥手、车辆灯光示意),并生成人类可理解的响应(如灯光、显示屏提示、鸣笛);
  • 实现思路:检索增强规划(如 RAG-Driver),融合实时感知、符号规则和上下文知识,对齐手势 - 语言 - 动作。

七、总结

论文核心结论如下:

  1. 技术演进逻辑:从模块化拆分→端到端映射→VLM 语言增强→VLA 多模态闭环,核心是解决 "信息割裂""动作鸿沟""可解释性不足" 三大痛点;
  2. 架构核心:以 "多模态输入 - 跨模态融合 - 动作输出" 为流水线,语言从被动解释升级为主动决策核心,思维链推理和记忆模块成为最新趋势;
  3. 关键支撑:大规模多模态数据集(如 nuScenes、Impromptu VLA)和高效模型适配技术(LoRA、MoE)是 VLA4AD 落地的基础;
  4. 核心挑战:鲁棒性、实时性、数据瓶颈、多模态对齐仍是制约大规模部署的关键;
  5. 未来愿景:构建 "可解释、可协作、可验证" 的自动驾驶系统,让车辆成为能与人类自然交互的智能体。

VLA4AD 作为自动驾驶与多模态大模型交叉的前沿领域,其发展需要计算机视觉、自然语言处理、机器人控制、交通工程等多学科的协同。随着基础模型能力的提升、数据集的丰富和评估标准的完善,VLA4AD 有望推动自动驾驶从 "封闭场景" 走向 "开放道路",实现真正的人机协同与社会合规。

相关推荐
爱笑的眼睛115 小时前
文本分类的范式演进:从统计概率到语言模型提示工程
java·人工智能·python·ai
星川皆无恙6 小时前
基于知识图谱+深度学习的大数据NLP医疗知识问答可视化系统(全网最详细讲解及源码/建议收藏)
大数据·人工智能·python·深度学习·自然语言处理·知识图谱
美狐美颜SDK开放平台6 小时前
自研还是接入第三方?直播美颜sdk与滤镜功能的技术选型分析
人工智能·美颜sdk·直播美颜sdk·美颜api·美狐美颜sdk
weixin_416660076 小时前
插件分享:将AI生成的数学公式无损导出为Word文档
人工智能·ai·word·论文·数学公式·deepseek
PM老周6 小时前
DORA2025:如何用AI提升研发效能(以 ONES MCP Server 为例)
大数据·人工智能
皇族崛起6 小时前
【众包 + AI智能体】AI境生态巡查平台边防借鉴价值专项调研——以广西边境线治理为例
大数据·人工智能
zhaodiandiandian6 小时前
AI大模型:重构产业生态的核心引擎
人工智能·重构
沈浩(种子思维作者)6 小时前
百项可控核聚变实现方式的全息太极矩阵
人工智能