vla

m0_650108241 天前
论文阅读·自动驾驶·vla·高效推理·端到端ad·openemma
OpenEMMA:开源多模态端到端自动驾驶框架全解析在自动驾驶技术飞速发展的今天,端到端系统因其能直接从传感器输入学习驾驶动作、实现整体优化的特性,逐渐成为研究热点。然而,现有端到端模型存在资源需求大、泛化能力弱、闭源限制等问题。由德州农工大学、密歇根大学和多伦多大学联合提出的 OpenEMMA 框架,基于多模态大语言模型(MLLMs),以开源、高效、鲁棒为核心优势,为端到端自动驾驶技术的普及与发展提供了全新解决方案。
datamonday5 天前
人工智能·深度学习·机器人·具身智能·vla
[EAI-037] π0.6* 基于RECAP方法与优势调节的自进化VLA机器人模型论文标题:: a VLA That Learns From Experience 作者/机构:Physical Intelligence (Pi) Team (核心作者包括 Kevin Black, Sergey Levine 等) 发布时间:2025年11月 (arXiv:2511.14759v2) 项目主页:https://pi.website/blog/pistar06 Keywords:VLA, Flow Matching, Offline RL, Advantage Conditioning,
datamonday6 天前
具身智能·vla·pi0·知识隔离
[EAI-036] 知识隔离VLA模型:阻断梯度干扰实现快速训练、高效推理与强泛化能力论文标题:Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better 作者/机构:Physical Intelligence (Danny Driess, et al.) 发布时间:2025年5月 项目主页:https://pi.website/research/knowledge_insulation keywords:VLA, Flow Matching, Knowledge I
具身智能之心7 天前
rl·vla·3dgs·realsim2real
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分享。
滴啦嘟啦哒7 天前
python·深度学习·vla
【机械臂】【视觉】一、加入摄像机并实现世界坐标与像素坐标的互相转换临近本科毕业,考虑到未来读研的方向以及自己的兴趣方向,我选择的课题大致为“基于VLA结构的指令驱动式机械臂仿真系统的实现”。
datamonday10 天前
robotics·vla·pi0.5·embodiedai
[EAI-035] 机器人的“ChatGPT 时刻”还有多远?从VLA模型 π0.5 看开放世界泛化的突破π0.5 是基于 π0 开发的视觉-语言-动作(VLA)模型 ,旨在解决机器人学习中的核心难题:开放世界泛化(Open-World Generalization) 。通过在异构数据源(包括不同形态的机器人、高层语义预测、Web 数据和口头指令)上进行共训练(Co-training),π0.5 能够控制移动操作机器人在从未见过的家庭环境中执行长程、多阶段的家务任务(如收拾厨房、叠被子),任务时长可达 10-15 分钟 。
想要成为计算机高手13 天前
人工智能·机器人·具身智能·vla
VLA中人类数据迁移到机器人后的涌现 -- physical intelligence -- 2025.12.16pi公司新作,从人类视频获取数据,训练机器人产生新的能力。视觉-语言-动作(VLA)模型能够实现广泛的开放世界泛化,但需要大规模且多样化的数据集。一个吸引人的想法是:其中一部分数据是否可以来自人类视频——这些视频覆盖多样的真实场景且易于获取。
mex_wayne14 天前
具身智能·vla·pi0 fast·pi0_fast·pi0fast
LeRobot SO-ARM101 学习笔记(4) pi0 fast (主要对比 pi0)提示:本文非常长且细腻, 可能是最详细的 pi0 fast学习 笔记, 首先要提前理解 flow matching
数据与后端架构提升之路15 天前
数据湖·mlops·vla·流批一体·世界模型·自动驾驶数据闭环·occupancy
2025:把“大模型”写进“数据闭环”——从自动驾驶到具身机器人,我如何用数据与算法做可落地的智能系统关键词:数据湖 / 流批一体 / MLOps / 自动驾驶数据闭环 / Occupancy / VLA / 世界模型 / 小模型本地推理 / 可靠性
龙腾亚太17 天前
langchain·多模态·dify·具身智能·智能体·vla
如何有效整合文本、图像等不同模态信息,提升模型跨模态理解与生成能力关键词:人工智能大模型 人工智能培训 大模型培训 具身智能培训 智能体 VLA有效整合文本、图像等不同模态信息,以提升模型的跨模态理解与生成能力,是当前多模态人工智能(Multimodal AI)研究的核心问题。以下从架构设计、对齐策略、训练方法、应用场景等多个维度系统阐述关键技术和实践路径:
深蓝学院17 天前
机器人·具身智能·vla
梳理 VLA 执行接触任务时安全落地的可行技术方案目录01 基于VLA的接触任务难在哪里语言安全约束,往往是“懂了也没法直接执行”VLA 输出的是动作,但风险常发生在“动作落地的物理细节”
cnbestec21 天前
具身智能·vla·aloha·trossen·trossen机器人
第一集:如何训练能“看懂、听懂、动手”的机器人?Trossen 系列视频揭秘VLA模型实践路径在人工智能迈向“具身化”的关键阶段,如何让机器人真正理解指令、感知环境并自主执行任务,已成为全球科研界的核心挑战。近日,Trossen Robotics 正式发布全新教育视频系列,聚焦视觉-语言-动作(Vision-Language-Action, VLA)模型的训练逻辑与数据构建方法,为中国高校及科研团队提供兼具科普性与实操价值的入门路径。
滴啦嘟啦哒22 天前
python·ros2·vla
【机械臂】【总览】基于VLA结构的指令驱动式机械臂临近本科毕业,考虑到未来读研的方向以及自己的兴趣方向,我选择的课题大致为“基于VLA结构的指令驱动式机械臂仿真系统的实现”。
具身智能之心22 天前
diffusion·具身智能·vla
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速Diffusion Large Language Model (DLLM)是大模型圈近期最火的topic之一,对于VLA来说,我们的motivation是充分利用dllm在生成理解一体化方面天然的优势,将未来帧生成和动作预测统一在一个框架内。
李小星同志1 个月前
vla
AC-DiT: Adaptive Coordination DiffusionTransformer for Mobile Manipulation这篇论文提出了AC-DiT(Adaptive Coordination Diffusion Transformer,自适应协调扩散 Transformer),是一款面向移动操作机器人的端到端控制框架,核心是解决移动底座与机械臂的协同控制难题,以及不同操作阶段的多模态感知适配问题。下面从研究背景、核心机制、模型架构、实验验证、核心结论五个维度为你讲清全貌:
龙腾亚太1 个月前
llm·知识图谱·数字孪生·vla·人工智能大模型
大模型十大高频问题一:RAG(检索增强生成)和微调,哪个更适合我的业务场景?Key Words:人工智能入 AI入门 大数据培训 数字孪生培训 大模型培训 知识图谱培训 软件架构培训 强化学习培训 人工智能培训 具身智能培训 深度学习培训 学习路径 智能体 LLM VLA 世界模型
想要成为计算机高手1 个月前
人工智能·学习·机器人·多模态·具身智能·vla
π*0.6: 从实践中学习 -- 2025.11.17 -- Physical Intelligence (π) -- 未开源It’s amazing what you can learn if you’re not afraid to try.
自动驾驶小学生3 个月前
vla
端到端与世界模型(2):基于认知驱动的自动驾驶3.0CSAE青年学者论坛:小米汽车陈龙-基于认知驱动的自动驾驶3.0
xwz小王子4 个月前
vla
Long-VLA:释放机器人长范围操作视觉-语言-动作模型的能力25年8月来自西湖大学、浙大、西安交大、未来区块链和隐私计算北京高精尖创新中心和电子科技大学(成都)的论文“Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation”。
深蓝学院4 个月前
机器人·vla
盘点完今年CoRL最火的VLA论文,发现最强的机器人,竟是用“假数据”喂大的摘要在机器人学习领域,Conference on Robot Learning (CoRL) 已经成为全球顶级的学术舞台。每年的大会都会集中展示最前沿的研究成果,也常常预示着未来的发展方向。