vla

cnbestec15 小时前
具身智能·vla·aloha·trossen·trossen机器人
第一集:如何训练能“看懂、听懂、动手”的机器人?Trossen 系列视频揭秘VLA模型实践路径在人工智能迈向“具身化”的关键阶段,如何让机器人真正理解指令、感知环境并自主执行任务,已成为全球科研界的核心挑战。近日,Trossen Robotics 正式发布全新教育视频系列,聚焦视觉-语言-动作(Vision-Language-Action, VLA)模型的训练逻辑与数据构建方法,为中国高校及科研团队提供兼具科普性与实操价值的入门路径。
滴啦嘟啦哒1 天前
python·ros2·vla
【机械臂】【总览】基于VLA结构的指令驱动式机械臂临近本科毕业,考虑到未来读研的方向以及自己的兴趣方向,我选择的课题大致为“基于VLA结构的指令驱动式机械臂仿真系统的实现”。
具身智能之心1 天前
diffusion·具身智能·vla
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速Diffusion Large Language Model (DLLM)是大模型圈近期最火的topic之一,对于VLA来说,我们的motivation是充分利用dllm在生成理解一体化方面天然的优势,将未来帧生成和动作预测统一在一个框架内。
李小星同志12 天前
vla
AC-DiT: Adaptive Coordination DiffusionTransformer for Mobile Manipulation这篇论文提出了AC-DiT(Adaptive Coordination Diffusion Transformer,自适应协调扩散 Transformer),是一款面向移动操作机器人的端到端控制框架,核心是解决移动底座与机械臂的协同控制难题,以及不同操作阶段的多模态感知适配问题。下面从研究背景、核心机制、模型架构、实验验证、核心结论五个维度为你讲清全貌:
龙腾亚太23 天前
llm·知识图谱·数字孪生·vla·人工智能大模型
大模型十大高频问题一:RAG(检索增强生成)和微调,哪个更适合我的业务场景?Key Words:人工智能入 AI入门 大数据培训 数字孪生培训 大模型培训 知识图谱培训 软件架构培训 强化学习培训 人工智能培训 具身智能培训 深度学习培训 学习路径 智能体 LLM VLA 世界模型
想要成为计算机高手24 天前
人工智能·学习·机器人·多模态·具身智能·vla
π*0.6: 从实践中学习 -- 2025.11.17 -- Physical Intelligence (π) -- 未开源It’s amazing what you can learn if you’re not afraid to try.
自动驾驶小学生2 个月前
vla
端到端与世界模型(2):基于认知驱动的自动驾驶3.0CSAE青年学者论坛:小米汽车陈龙-基于认知驱动的自动驾驶3.0
xwz小王子3 个月前
vla
Long-VLA:释放机器人长范围操作视觉-语言-动作模型的能力25年8月来自西湖大学、浙大、西安交大、未来区块链和隐私计算北京高精尖创新中心和电子科技大学(成都)的论文“Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation”。
深蓝学院4 个月前
机器人·vla
盘点完今年CoRL最火的VLA论文,发现最强的机器人,竟是用“假数据”喂大的摘要在机器人学习领域,Conference on Robot Learning (CoRL) 已经成为全球顶级的学术舞台。每年的大会都会集中展示最前沿的研究成果,也常常预示着未来的发展方向。
想要成为计算机高手4 个月前
机器人·具身智能·vla·robotwin
RoboTwin--CVPR2025--港大--2025.4.17--开源Robotwin 2.0 是很好的工作,在社区中的反响非常好,所以来看看可能是RoboTwin2.0的前身的这篇文章。 项目页:RoboTwin2.0 论文页 github
带电的小王5 个月前
vla·openvla
OpenVLA: 论文阅读 -- 开源视觉-语言-行动模型更多内容:XiaoJ的知识星球..图1:提出OpenVLA,7B的开源视觉-语言-动作模型(VLA).
想要成为计算机高手5 个月前
数码相机·机器人·ros·仿真·具身智能·vla·isaacsim
10. isaacsim4.2教程-RTX Lidar 传感器Isaac Sim的RTX或光线追踪Lidar支持通过JSON配置文件设置固态和旋转Lidar配置。每个RTX传感器必须附加到自己的视口或渲染产品,以确保正确模拟。
贾全5 个月前
人工智能·机器人·大模型·vla·smolvla
【中文翻译】SmolVLA:面向低成本高效机器人的视觉-语言-动作模型本文翻译自《SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics》,旨在促进相关技术在国内学术界的传播和发展。
HuggingFace7 个月前
vla
SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案今天,我们介绍了 SmolVLA,这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型,专为机器人领域设计,并且可以在消费级硬件上运行。
想要成为计算机高手7 个月前
人工智能·深度学习·计算机视觉·自然语言处理·机器人·开源·vla
半成品的开源双系统VLA模型,OpenHelix-发表于2025.5.6https://openhelix-robot.github.io/随着OpenVLA的开源,VLA如何部署到真实的机器人上获得了越来越多的关注,各界人士也都开始尝试解决OpenVLA的效率问题,双系统方案是其中一个非常热门的方案,但是双系统的方案有很多,比如Helix,理想汽车MindVLA等,但是缺乏相关开源工作,难以继续研究。
想要成为计算机高手7 个月前
人工智能·计算机视觉·自然语言处理·大模型·vla
Helix:一种用于通用人形控制的视觉语言行动模型目录1. 介绍Helix1.1 多机器人协作(Multi-Robot Collaboration)1.2 零样本泛化(Zero-Shot Generalization)
寻丶幽风8 个月前
论文阅读·笔记·机器人·具身智能·vla
论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language PriorsRoboGround 论文 一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。
nenchoumi31198 个月前
论文阅读·人工智能·深度学习·语言模型·vla
VLA 论文精读(十八)π0.5: a Vision-Language-Action Model with Open-World Generalization这篇文章是2025年发表在arxiv上的一篇VLA领域,这篇论文出来的第二天我就粗略读了一遍,但实在意犹未尽所以又写了这篇博客。这篇文章给我的震撼其实不是他们有多强泛化能力的模型,而是他们所有的机械臂构型与之前完全不一样了,Physical Intelligence 是一家打通了从硬件到算法的公司,他们与国内的银河通用、星海图等公司都有非常紧密的合作,我也是偶然才知道 Physical Intelligence 其实一直在给两家公司的本体构型提改动需求,也就是说这家公司其实摸到了正真适合VLA模型的硬件结
nenchoumi31198 个月前
论文阅读·笔记·学习·vla
VLA论文精读(十四)PointVLA: Injecting the 3D World into Vision-Language-Action Models这篇论文瞄准的是2025年在arxiv上发布的一篇VLA领域论文。这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型,而不是DP3一样只用纯3D数据从头训练模型,按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力,并且可以有效识别真实物体与2D照片,作者设置的各种任务中都超越了baseline模型。
万俟淋曦8 个月前
人工智能·ai·机器人·大模型·论文·具身智能·vla
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)作者: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingx