Vision-Language-Action 模型在自动驾驶中的应用(VLA4AD)

自动驾驶技术的核心诉求是让车辆在复杂动态的交通环境中,实现感知、决策与控制的闭环协同。传统模块化方案通过拆分感知、预测、规划、控制等独立模块实现功能,但模块间的信息割裂导致其在长尾场景(如突发的救护车避让、道路施工临时管制)和人机交互场景中表现脆弱。近年来,多模态大语言模型(MLLM)的爆发式发展,推动了视觉 - 语言 - 动作(Vision-Language-Action, VLA)范式的出现 ------ 这种将视觉感知、自然语言理解与控制指令融合于单一模型的架构,为解决自动驾驶的 "可解释性" 与 "动作闭环" 难题提供了全新思路。

本文将对首篇全面覆盖自动驾驶领域 VLA 范式的综述论文《A Survey on Vision-Language-Action Models for Autonomous Driving》进行深度精读,系统拆解 VLA4AD(Vision-Language-Action for Autonomous Driving)的技术演进、架构设计、数据集、训练评估方法、核心挑战与未来方向。

原文链接:https://arxiv.org/pdf/2506.24044

代码链接:https://github.com/JohnsonJiang1996/Awesome-VLA4AD

沐小含持续分享前沿算法论文,欢迎关注...

一、自动驾驶技术的四阶段演进

论文将自动驾驶技术的发展划分为四个核心范式,清晰展现了从 "模块化拆分" 到 "多模态融合闭环" 的演进逻辑,下图展示了三个核心范式(除了经典模块化流水线范式)。

图 1 自动驾驶范式对比:(a) 端到端方案直接映射感知到控制,但缺乏可解释性;(b) VLM4AD 引入语言推理,但未闭环动作;(c) VLA4AD 融合感知、推理、动作,实现可解释的闭环控制。

1.1 经典模块化流水线(Classical Modular Pipelines)

这是自动驾驶的早期主流方案,以 DARPA 城市挑战赛中的车辆为代表,将驾驶任务严格拆分为感知、预测、规划、控制四个独立模块:

  • 感知模块:通过 LiDAR、雷达、摄像头等传感器识别道路目标(如车辆、行人、交通灯);
  • 预测模块:基于历史轨迹预测其他交通参与者的未来行为;
  • 规划模块:通过有限状态机或图搜索生成可行路径;
  • 控制模块:通过 PID 或 MPC 算法执行转向、油门、刹车指令。

优势 :模块化设计便于单独调试、测试和优化,在工业界得到广泛应用;缺陷:模块间信息割裂,上游误差会逐级传播(如感知漏检会导致规划决策失误),且难以处理需要跨模块推理的长尾场景。

1.2 端到端自动驾驶(End-to-End Autonomous Driving)

为解决模块化方案的信息损失问题,端到端方案直接将原始传感器数据映射为控制指令,跳过手工设计的中间模块(如图 1 (a) 所示):

  • 核心逻辑:以 "视觉 - 动作(VA)" 为核心,通过神经网络学习从传感器输入到驾驶动作的端到端映射;
  • 代表性方法:
    • UniAD:基于栅格化表示(语义图、占用图等)实现多任务融合,但计算开销大;
    • VAD:采用全向量化场景表示,以更高效率实现端到端规划;
    • PolarPoint-BEV:通过极坐标点编码优化 BEV 表示,增强对不同距离目标的关注度;
  • 优化方向:为缓解数据稀疏性和解空间过大问题,部分方法引入中间监督(如集成感知 - 预测任务)、图结构建模(GraphAD)、稀疏架构(SparseAD)等。

优势 :减少模块间误差传播,简化系统设计;缺陷

  • 语义脆弱性:对罕见场景泛化能力差;
  • 推理不透明:决策过程难以解释,不利于安全审计;
  • 缺乏语言交互能力:无法理解人类自然语言指令。

1.3 自动驾驶视觉语言模型(VLMs for Autonomous Driving)

为增强端到端模型的可解释性和泛化能力,研究者将视觉语言模型(VLM)引入自动驾驶,形成 "视觉 - 语言(VL)" 融合方案(如图 1 (b) 所示):

  • 核心逻辑:通过大规模图文预训练,让模型学习 "像素 - 文本" 的对齐关系,既能完成感知任务,又能生成自然语言解释;
  • 典型应用:
    • 场景解释:如描述 "救护车正在超车,需避让";
    • 决策 justification:如解释 "因红灯亮起而停车";
    • 长尾场景泛化:利用 VLM 的常识知识识别罕见目标(如施工标志、特殊车辆)。

优势 :提升可解释性和零样本泛化能力;缺陷:仍为 "感知 - centric",语言输出与控制指令松耦合 ------ 模型仅能解释场景,无法直接生成驾驶动作,且存在语言幻觉(如虚构 hazards)或口语指令误解问题,未解决 "动作鸿沟"(action gap)。

1.4 自动驾驶视觉 - 语言 - 动作模型(VLA4AD)

这是当前最前沿的范式,将视觉感知、语言理解、动作控制融合于单一政策网络(如图 1 (c) 所示),实现 "感知 - 推理 - 动作" 的闭环:

  • 核心突破:引入 "动作头(Action Head)",让语言不仅用于解释,更直接指导决策和控制;
  • 三大核心能力:
    1. 遵循自由形式指令:如 "避让救护车""在超市门口停车";
    2. 生成决策理由:实时输出自然语言解释(如 "前方有行人横穿,减速避让"),便于事后验证;
    3. 长尾场景推理:利用互联网规模的图文预训练知识,处理未见过的场景(如道路临时施工、行人手势指挥)。

技术驱动因素

  1. 数据支撑:nuScenes、Impromptu VLA 等大规模多传感器数据集提供丰富监督;
  2. 模型效率优化:LoRA 等低秩适配技术、TS-VLM 等 token 缩减设计降低大模型部署开销;
  3. 合成数据与交互数据集:SimLingo、NuInteract 等支持在仿真环境中测试语言条件下的驾驶行为。

二、VLA4AD 的核心架构设计

VLA4AD 的架构核心是 "多模态输入 - 跨模态融合 - 动作输出" 的端到端流水线,论文将其拆解为三大模块:多模态输入与语言指令、核心架构模块、驾驶输出,具体如下:

图 3 VLA4AD 模型演进:从左到右依次为(1)语言仅作为解释器;(2)模块化 VLA,语言指导规划;(3)端到端 VLA,直接映射输入到动作;(4)推理增强型 VLA,融合工具使用和 CoT 推理。

2.1 多模态输入与语言指令

VLA4AD 需要同时捕捉环境状态和人类意图,输入包含三类关键信息:

(1)视觉数据(Visual Data)
  • 演进路径:从单目前视摄像头→立体摄像头→多视角环视系统,逐步提升空间覆盖能力;
  • 表示形式:
    • 原始图像:直接输入神经网络处理;
    • 结构化表示:通过 BEV(鸟瞰图)投影将 2D 图像转换为 3D 空间特征,便于空间推理;
    • 动态适配:部分模型(如 DynRsl-VLM)可根据场景动态调整输入分辨率,平衡实时性和细节捕捉。
(2)其他传感器数据(Other Sensor Data)
  • 几何传感器:LiDAR(提供精确 3D 结构)、雷达(测速)、GPS(定位);
  • 动态传感器:IMU(惯性测量单元,捕捉车辆运动状态)、 proprioceptive 数据(转向角、油门、加速度,用于行为预测和闭环控制);
  • 融合目标:构建 "空间 - 时间" 统一表示,弥补单一传感器的局限性(如 LiDAR 抗雨雾能力强,摄像头语义识别优)。
(3)语言输入(Language Inputs)

语言是人机交互和常识推理的核心,其形式随技术演进不断丰富:

  • 基础指令:导航命令(如 "下个路口左转""红灯停车");
  • 环境查询:交互式问题(如 "现在变道安全吗?""当前限速多少?");
  • 任务级描述:交通规则解析、高层目标定义(如 "避开施工区域,选择最短路线");
  • 高级形式:多轮对话、思维链(CoT)提示、工具增强语言接口,甚至语音输入(通过语音识别转换为文本)。

2.2 核心架构模块

核心模块负责将多模态输入融合为统一特征,并映射到动作空间,包含三大组件:

(1)视觉编码器(Vision Encoder)
  • 骨干网络:采用自监督预训练模型(如 DINOv2、ConvNeXt-V2、CLIP)提取视觉特征;
  • 3D 增强:部分模型引入点云编码器(如 PointVLA)或体素模块(3D-VLA),直接处理 LiDAR 的 3D 点云数据;
  • 多尺度融合:通过语言引导的注意力机制,让视觉编码器聚焦于与任务相关的区域(如 "救护车""行人")。
(2)语言处理器(Language Processor)
  • 基础模型:采用预训练大语言模型(如 LLaMA2、GPT 系列、Qwen)处理文本输入;
  • 适配策略:
    • 指令微调:通过 Visual Instruction Tuning 注入驾驶领域知识;
    • 高效适配:采用 LoRA 等低秩更新技术,在不微调全部参数的情况下适配大模型;
    • 检索增强:如 RAG-Driver,通过检索记忆库中的历史驾驶案例,辅助当前决策。
(3)动作解码器(Action Decoder)

动作解码器是 VLA4AD 与 VLM4AD 的核心区别,负责将融合特征映射为驾驶动作,主流实现方式有三种:

  • 自回归 Tokenizer:将离散动作或轨迹关键点序列化为 token,逐次预测(如连续转向角离散为多个 token);
  • 扩散模型头(Diffusion Heads):如 DiffVLA、Diffusion-VLA,通过扩散过程生成连续控制指令,适合处理不确定性场景;
  • 分层控制器:如 ORION,由语言规划器生成子目标(如 "100 米后变道"),再由低 - level PID/MPC 控制器执行具体动作;
  • 其他形式:Flow-matching、策略梯度(如 GRPO、DPO)等,用于强化学习优化的场景。

2.3 驾驶输出(Driving Outputs)

输出形式反映模型的抽象层次和应用场景,主要分为两类:

(1)低级别动作(Low-Level Actions)
  • 直接输出:转向角、油门、刹车等原始控制信号;
  • 表示形式:连续值或离散 token;
  • 优势:细粒度控制,可直接对接车辆执行器;
  • 缺陷:对感知误差敏感,缺乏长时域规划能力。
(2)轨迹规划(Trajectory Planning)
  • 输出形式:BEV 或车辆坐标系下的未来轨迹(如未来 5 秒的路径点序列);
  • 执行方式:通过 MPC 等下游规划器将轨迹转换为控制信号;
  • 优势:稳定性强,可整合多模态上下文进行长时域推理(如预测 5 秒后车辆位置并规划避障路径)。

三、VLA4AD 的技术演进脉络

论文将 VLA4AD 的发展划分为四个阶段,清晰展现了 "语言从被动解释到主动决策核心" 的演进过程,如图所示:

文中总结了2023-2025年期间具有代表性的VLA4AD模型(下表),阐述了其输入模态、语言整合方式、动作输出形式、评估所用数据或环境及其核心贡献。

3.1 前 VLA 阶段:语言模型作为解释器(Pre-VLA: Language Model as Explainer)

  • 核心定位:语言仅用于场景解释,不参与决策;
  • 典型方案:如 DriveGPT-4,通过冻结的 VLM(如 CLIP)提取视觉特征,再由 LLM 生成场景描述(如 "前方有行人横穿马路")或动作标签(如 "减速");
  • 缺陷:
    • 语言与控制脱节:实际驾驶动作仍由传统 PID 控制器执行,语言仅为 "附加解释";
    • latency 问题:每帧生成长文本解释导致实时性差;
    • 冗余计算:通用视觉编码器关注与驾驶无关的细节(如路边广告)。
  • 优化方向:TS-VLM 通过文本引导的软注意力池化聚焦关键区域,DynRsl-VLM 动态调整输入分辨率,提升效率。

3.2 模块化 VLA4AD(Modular VLA4AD)

  • 核心突破:语言成为规划模块的输入,直接指导决策,但仍依赖多阶段流水线;
  • 典型方案:
    • OpenDriveVLA:融合摄像头 / LiDAR 数据与文本路线指令(如 "在教堂处右转"),生成中间 waypoint(如 "20 米后右转,随后直行"),再转换为轨迹;
    • CoVLA-Agent:将视觉 / LiDAR 特征与文本提示融合,通过 MLP 将动作 token(如 "左转")映射为轨迹;
    • DriveMoE:采用混合专家(Mixture-of-Experts)架构,通过语言线索动态选择子规划器(如 "超车专家""跟车专家");
    • SafeAuto:引入形式化逻辑表达的交通规则,验证并否决语言驱动的不安全规划。
  • 优势:减少语言与动作的语义鸿沟,提升决策透明度;
  • 缺陷:多阶段流水线导致 latency 增加,模块间误差传播风险仍存在。

3.3 端到端 VLA4AD(Unified End-to-End VLA4AD)

  • 核心突破:将感知、语言理解、动作生成整合为单一可微分网络,实现 "输入→输出" 的直接映射;
  • 典型方案:
    • EMMA:在 Waymo 数据上训练大规模 VLM,联合执行目标检测和运动规划,共享特征表示;
    • SimLingo/CarLLaVA:基于 LLaVA 在 CARLA 仿真环境中微调,引入 "动作梦境(action dreaming)" 技术 ------ 通过改变语言指令生成多样化轨迹,强化语言与动作的耦合;
    • ADriver-I:通过扩散模型学习 latent 世界模型,预测动作对应的未来摄像头帧,实现 "通过想象后果进行规划";
    • DiffVLA:融合稀疏(waypoint)和稠密(占用栅格)扩散预测,生成符合文本描述的安全轨迹。
  • 优势:低 latency,无模块间误差传播,传感器 - 动作映射更直接;
  • 缺陷:长时域推理能力弱,决策解释性不足。

3.4 推理增强型 VLA4AD(Reasoning-Augmented VLA4AD)

  • 核心突破:将 LLM/VLM 置于控制闭环中心,引入记忆、思维链(CoT)推理,强化长时域规划和交互能力;
  • 典型方案:
    • ORION:结合 QTFormer 记忆模块(存储数分钟的观测和动作历史)与 LLM,生成轨迹和对应的自然语言解释;
    • Impromptu VLA:在 8 万条长尾场景数据上训练,学习 "先推理后动作" 的逻辑 ------ 先 verbalize 决策路径(如 "前方施工,需减速并变道至左侧车道"),再生成动作;
    • AutoVLA:将连续轨迹 token 化为离散 "驾驶 token",通过自回归 transformer 融合 CoT 推理和轨迹规划,在 nuPlan 和 CARLA 上实现 SOTA 闭环成功率。
  • 优势:具备长时域推理、多轮交互和可解释性,接近人类驾驶决策逻辑;
  • 挑战:需平衡 LLM 推理 latency 与 30Hz 以上的实时控制需求,且需验证语言推理的逻辑一致性。

四、VLA4AD 的数据集与基准测试

高质量数据集是 VLA4AD 发展的基础,论文整理了当前主流数据集,覆盖 "真实场景 - 仿真场景""普通场景 - 长尾场景""感知 - 推理 - 动作" 全维度,具体如下表所示(表 2):

数据集核心特点总结

  1. 真实性与仿真互补:BDD100K、nuScenes 提供真实场景多样性,CARLA-based 数据集(如 Bench2Drive)支持安全的长尾场景测试;
  2. 语言标注精细化:从简单描述(BDD-X)→ 思维链推理(Reason2Drive)→ 多轮交互(NuInteract),逐步提升语言与驾驶任务的耦合度;
  3. 任务覆盖全面:涵盖感知(检测)、推理(QA)、动作(轨迹 / 控制)全链路,支持端到端评估。

五、训练与评估策略

VLA4AD 的训练需同时满足 "驾驶安全" 和 "语言保真" 两大目标,评估则需覆盖控制性能、语言能力、鲁棒性等多维度。论文详细梳理了当前主流的训练范式和评估协议:

5.1 训练范式

(1)有监督模仿学习(Supervised Imitation Learning, IL)
  • 核心逻辑:让模型模仿人类专家的驾驶行为,最小化控制信号或轨迹的 L2 损失或交叉熵损失;
  • 典型应用:
    • CoVLA-Agent:每帧同时学习未来路径和场景描述;
    • CarLLaVA:在 SimLingo 的百万级仿真数据上进行行为克隆;
  • 优势:训练稳定,易于规模化;
  • 缺陷:泛化能力受限,对长尾场景(如事故、极端天气)缺乏监督;
  • 改进方案:DAgger-style 噪声滚动、长尾场景增强。
(2)强化学习(Reinforcement Learning, RL)
  • 核心逻辑:在仿真环境(CARLA、Bench2Drive)中通过试错学习,优化路线完成率、避撞、交通规则遵守等奖励;
  • 典型应用:
    • LangCoop:通过 RL 优化车辆间的语言协作(如路口会车时的意图沟通);
    • SafeAuto:将交通规则作为硬约束或惩罚项,强化安全行为;
  • 挑战:如何平衡 "驾驶奖励" 与 "语言保真度"------ 当前多冻结 LLM 仅优化控制部分,未充分利用文本与动作的联合梯度。
(3)多阶段训练(Multi-stage Training)

这是当前最主流的训练流程,分为四步:

  1. 预训练:在大规模图文 / 视频数据集上预训练视觉编码器(如 CLIP)和语言模型(如 LLaMA),学习通用多模态特征;
  2. 模态对齐:在 "图像 - 文本 - 动作" 配对数据上微调,通过跨模态对比损失绑定场景特征、语言提示和控制 token(如 DriveMonkey 在 NuInteract 上微调);
  3. 目标增强:注入长尾场景(如 SimLingo 的特殊场景)和规则约束,结合 RL 优化边缘案例性能;
  4. 模型压缩:通过 LoRA、混合专家(MoE)、师生蒸馏等方法,降低模型计算开销,适配车载硬件。
(4)关键优化点:语言与控制的平衡
  • 联合损失:如 CoVLA-Agent 采用 L = L_traj + λL_cap,同时优化轨迹和文本生成;
  • 交替更新:一批数据优化驾驶任务,下一批优化语言任务,避免梯度干扰;
  • 冻结 LLM:仅训练轻量级适配器(Adapter),在保证语言流畅性的同时降低计算成本。

5.2 评估协议

VLA4AD 的评估需兼顾 "驾驶能力" 和 "语言能力",论文提出四大核心评估维度:

(1)闭环驾驶性能(Closed-loop Driving)
  • 核心指标:路线完成率(CARLA/Bench2Drive)、违规次数(碰撞、闯红灯、偏离车道)、规则遵守度;
  • 典型优化:DiffVLA 通过 PDMS 层将违规率降低 50%。
(2)开环预测性能(Open-loop Prediction)
  • 核心指标:轨迹 L2 误差、碰撞率(nuScenes 挑战)、目标达成率(指令条件下)、辅助感知任务的 mAP/IoU、 latency/FPS;
  • 效率优化:TS-VLM 通过 token 池化将计算量降低 90%。
(3)语言能力(Language Competence)
  • 核心指标:
    • 指令跟随准确率(SimLingo 的 Action-Dreaming 基准);
    • 自动评估:BLEU、CIDEr(NuInteract、DriveLM);
    • 逻辑一致性:Reason2Drive 的推理链一致性评分;
    • 人工评估:BDD-X 风格决策理由的人类打分。
(4)鲁棒性与压力测试(Robustness & Stress)
  • 测试场景:传感器扰动(模糊、遮挡、延迟)、对抗性提示(如口语化指令、多语言混合)、分布外场景(未见过的交通标志、天气);
  • 典型方法:DynRsl-VLM 分析分辨率动态调整对鲁棒性的影响。

评估现状:当前评估多为单维度独立测试(如 CARLA 评估控制,NuInteract 评估语言),缺乏统一的 "AI 驾照" 式基准 ------ 需同时融合控制可靠性、语言保真度和人机协同能力。

六、核心挑战与未来方向

6.1 亟待解决的六大挑战

(1)鲁棒性与可靠性(Robustness & Reliability)
  • 核心问题:LLM 可能产生语言幻觉(如虚构障碍物)、误解口语指令;模型在传感器噪声(雨雾、眩光)和长尾场景下稳定性差;
  • 未解决问题:缺乏 "社会合规" 驾驶政策的形式化验证(如如何平衡 "避让行人" 与 "不影响后车")。
(2)实时性能(Real-time Performance)
  • 核心矛盾:视觉 Transformer+LLM 的计算开销大,需满足车载硬件≥30Hz 的实时控制需求;
  • 潜在方案:token 缩减(TS-VLM)、硬件感知量化、事件触发推理(仅在场景变化时激活大模型)。
(3)数据与标注瓶颈(Data & Annotation Bottlenecks)
  • 核心问题:"图像 + 控制 + 语言" 三模态标注稀缺且昂贵(如 Impromptu VLA 需 8 万条人工标注 clip);非英语方言、交通口语、法律相关表述的覆盖不足;
  • 缓解方向:合成数据(SimLingo)、弱监督 / 自监督学习。
(4)多模态对齐(Multimodal Alignment)
  • 核心问题:当前模型以摄像头为中心,LiDAR、雷达、HD 地图、时序状态的融合不充分;缺乏时间一致的异模态融合框架;
  • 现有尝试:BEV 点云投影、3D token 适配器、ORION 的语言历史总结。
(5)多智能体社会复杂性(Multi-agent Social Complexity)
  • 核心问题:密集交通场景下,车辆间如何通过 "交通语言" 高效协作?如何防范恶意消息攻击?
  • 研究方向:加密 V2V 通信、手势 - 文本对齐(如识别交警手势并转换为驾驶指令)。
(6)域适配与评估(Domain Adaptation & Evaluation)
  • 核心问题:仿真到真实场景的迁移差距、跨地区交通规则适配(如左行 / 右行)、持续学习中的灾难性遗忘;缺乏统一的监管评估标准;
  • 关键需求:定义覆盖控制、解释、协同的 "AI 驾驶考试"。

6.2 五大未来研究方向

(1)基础模型级驾驶模型(Foundation-scale Driving Models)
  • 目标:构建类似 GPT 的 "驾驶基础模型",基于海量多传感器数据(行车记录仪、LiDAR、HD 地图、交通规则文本)自监督预训练;
  • 能力:通过提示词或 LoRA 快速适配下游任务(如不同城市、不同车型),无需大规模微调。
(2)神经符号安全内核(Neuro-symbolic Safety Kernels)
  • 思路:融合神经网络的灵活性与符号逻辑的可验证性 ------ 神经 VLA 模型输出结构化动作程序或 CoT 计划,由符号验证器执行安全检查;
  • 案例:ORION 的语言记忆模块已初步具备结构化输出能力。
(3)车队级持续学习(Fleet-scale Continual Learning)
  • 方案:部署的自动驾驶车队将长尾场景以 "语言摘要" 形式上传(如 "x 路口出现新型施工标志"),云端聚合后更新模型,再推送给车队;
  • 优势:避免上传原始传感器数据,降低带宽开销,快速积累罕见场景知识。
(4)标准化交通语言(Standardised Traffic Language)
  • 目标:设计类似航空 ICAO 术语的约束性交通语言(如 "我避让你""前方障碍物"),实现车辆间高效、无歧义协作;
  • 技术路径:利用 MoE(DriveMoE)或 token 缩减 LM(TS-VLM)降低 V2V 通信带宽。
(5)跨模态社会智能(Cross-modal Social Intelligence)
  • 目标:让车辆理解非语言社交信号(交警手势、行人挥手、车辆灯光示意),并生成人类可理解的响应(如灯光、显示屏提示、鸣笛);
  • 实现思路:检索增强规划(如 RAG-Driver),融合实时感知、符号规则和上下文知识,对齐手势 - 语言 - 动作。

七、总结

论文核心结论如下:

  1. 技术演进逻辑:从模块化拆分→端到端映射→VLM 语言增强→VLA 多模态闭环,核心是解决 "信息割裂""动作鸿沟""可解释性不足" 三大痛点;
  2. 架构核心:以 "多模态输入 - 跨模态融合 - 动作输出" 为流水线,语言从被动解释升级为主动决策核心,思维链推理和记忆模块成为最新趋势;
  3. 关键支撑:大规模多模态数据集(如 nuScenes、Impromptu VLA)和高效模型适配技术(LoRA、MoE)是 VLA4AD 落地的基础;
  4. 核心挑战:鲁棒性、实时性、数据瓶颈、多模态对齐仍是制约大规模部署的关键;
  5. 未来愿景:构建 "可解释、可协作、可验证" 的自动驾驶系统,让车辆成为能与人类自然交互的智能体。

VLA4AD 作为自动驾驶与多模态大模型交叉的前沿领域,其发展需要计算机视觉、自然语言处理、机器人控制、交通工程等多学科的协同。随着基础模型能力的提升、数据集的丰富和评估标准的完善,VLA4AD 有望推动自动驾驶从 "封闭场景" 走向 "开放道路",实现真正的人机协同与社会合规。

相关推荐
AngelPP3 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年3 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼3 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS3 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区4 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈5 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang5 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk16 小时前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能
西门老铁8 小时前
🦞OpenClaw 让 MacMini 脱销了,而我拿出了6年陈的安卓机
人工智能