技术栈
具身智能
大唐荣华
2 天前
人工智能
·
分类
·
机器人
·
具身智能
视觉语言模型(VLA)分类方法体系
视觉语言模型(Vision-Language Models, VLA)的分类方法可从功能设计、结构特性、训练范式和应用场景四大维度展开。不同分类方法反映了模型的核心设计理念与技术路径,以下为系统化梳理:
计算机sci论文精选
2 天前
人工智能
·
深度学习
·
机器学习
·
计算机视觉
·
机器人
·
cvpr
·
具身智能
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
关注gongzhonghao【CVPR顶会精选】1.导读1.1 论文基本信息论文标题:《HOLODECK: Language Guided Generation of 3D Embodied AI Environments》
视觉语言导航
3 天前
人工智能
·
深度学习
·
无人机
·
具身智能
哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试
UAV-ON 定义了一个开放世界环境中的实例级目标导航(ObjectNav)任务,无人机(UAV)需要根据语义指令导航到目标物体。
夜幕龙
5 天前
人工智能
·
机器人
·
具身智能
宇树 G1 部署(十)——数据格式转换与 IL 训练
在之前几篇笔记中完成了基于 apple vision 的 G1 遥操作,现在需要将数据集转换成 lerobot 格式然后再进行训练部署
Mr.Winter`
11 天前
人工智能
·
机器人
·
自动驾驶
·
ros
·
ros2
·
具身智能
运动规划实战案例 | 基于多源流场(Flow Field)的路径规划(附ROS C++/Python实现)
在机器人导航、游戏AI或自动驾驶等领域,路径规划的核心挑战在于如何在复杂环境中快速找到从起点到目标的最优路径。传统的单源路径规划算法(如A*)虽能解决单起点问题,但在多起点或多目标场景下,往往需要重复计算或难以平衡全局效率。多源流场(Multi-source Flow Field) 通过构建全局的流动信息场,将多源起点的信息融合到每个网格单元中,可以用于启发式函数设计,或提供梯度场进行轨迹优化。
视觉语言导航
19 天前
人工智能
·
深度学习
·
机器人
·
具身智能
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
作者: Xiaofeng Han, Shunpeng Chen, Zenghuang Fu, Zhe Feng, Lue Fan, Dong An, Changwei Wang, Li Guo, Weiliang Meng, Xiaopeng Zhang, Rongtao Xu, Shibiao Xu
机器觉醒时代
20 天前
人工智能
·
具身智能
·
vla模型
具身智能VLA困于“数据泥潭”,人类活动视频数据是否是“破局之钥”?
尽管当前的视觉-语言-动作(VLA)模型已展现出显著进展,但其在新场景和与复杂物体交互中的性能会显著下降,在遵循指令方面落后于像LLaVA 这样的大型多模态模型(LMM)。
Sherlock Ma
22 天前
人工智能
·
计算机视觉
·
语言模型
·
机器人
·
大模型
·
aigc
·
具身智能
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)
GR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外,GR-3 支持少量人类轨迹数据的高效微调,可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任务(包括需要双手操作和底盘移动的任务)上也展现出稳健且可靠的性能。
想要成为计算机高手
1 个月前
数码相机
·
机器人
·
ros
·
仿真
·
具身智能
·
vla
·
isaacsim
10. isaacsim4.2教程-RTX Lidar 传感器
Isaac Sim的RTX或光线追踪Lidar支持通过JSON配置文件设置固态和旋转Lidar配置。每个RTX传感器必须附加到自己的视口或渲染产品,以确保正确模拟。
笑稀了的野生俊
1 个月前
manipulation
·
具身智能
·
stacking
论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes
论文地址:Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes
视觉语言导航
1 个月前
人工智能
·
深度学习
·
无人机
·
具身智能
低成本、高泛化能力的无人机自主飞行!VLM-Nav:基于单目视觉与视觉语言模型的无地图无人机导航
视觉语言导航
1 个月前
人工智能
·
无人机
·
具身智能
南洋理工空中导航零样本迁移与泛化!VLFly:基于开放词汇目标理解的无人机视觉语言导航
实验设置:实验结果:
视觉语言导航
1 个月前
人工智能
·
机器人
·
无人机
·
具身智能
慕尼黑工业大学具身机器人实时环境探索!FindAnything:基于开放词汇对象中心映射的机器人任意环境认知与导航
作者: Sebastian Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Stefan Leutenegger
想要成为计算机高手
1 个月前
人工智能
·
机器人
·
ros
·
仿真
·
具身智能
·
isaacsim
9. isaacsim4.2教程-ROS加相机/CLOCK
在本示例中,我们将学习如何:向场景中添加额外的相机并将其安装在机器人上添加相机发布器(Camera Publishers)
墨绿色的摆渡人
1 个月前
人工智能
·
vae
·
具身智能
具身智能零碎知识点(五):VAE中对使用KL散度的理解
VAE,全称是变分自编码器。要理解它,我们得先从自编码器 (AutoEncoder, AE) 说起。想象你有一张照片(比如一张猫的图片),你想把它压缩成一个很小的数据包,然后再从这个数据包里把照片还原出来。
视觉语言导航
1 个月前
人工智能
·
深度学习
·
具身智能
ICCV-2025 | 复杂场景的精准可控生成新突破!基于场景图的可控 3D 户外场景生成
3D 场景生成因其构建真实、物理一致三维场景的潜力而受到广泛关注。这类模型为理解和模拟复杂的三维世界提供了一种有效方式。在众多三维场景生成方法中,概率生成模型近年来展现出巨大潜力。然而,这类模型的随机性也带来了控制精度不足的问题,因此一个可编辑、可控的生成过程显得尤为重要。
Mr.Winter`
1 个月前
c++
·
人工智能
·
机器人
·
自动驾驶
·
ros
·
ros2
·
具身智能
轨迹优化 | 基于激光雷达的欧氏距离场ESDF地图构建(附ROS C++仿真)
在机器人路径规划与自主导航领域,欧氏符号距离场(Euclidean Signed Distance Field, ESDF)是一种用于高效表示环境几何信息的关键数据结构。它通过量化空间中每个点到最近障碍物的有符号欧氏距离,将复杂的障碍物分布转化为连续的数值场,为轨迹优化、碰撞检测等任务提供了强大的数学工具。本文将从数学定义出发,结合轨迹优化的具体场景,阐述ESDF的核心思想与应用
视觉语言导航
2 个月前
人工智能
·
深度学习
·
机器人
·
具身智能
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
作者: Shaoting Zhu, Linzhan Mou, Derun Li, Baijun Ye, Runhan Huang, Hang Zhao
Mr.Winter`
2 个月前
人工智能
·
机器人
·
自动驾驶
·
ros
·
具身智能
·
环境感知
障碍感知 | 基于3D激光雷达的三维膨胀栅格地图构建(附ROS C++仿真)
在机器人环境感知领域,传统2D激光雷达通过单层扫描平面提供高效的二维轮廓信息,在室内导航、仓库AGV等结构化环境中表现出色。其优势在于数据量小(通常每秒数千个点)、处理简单,且成本相对低廉。然而,这种"切片式"感知存在根本性局限:当遇到多层货架、悬空障碍物或复杂地形时,单平面扫描会丢失关键的三维信息。更严重的是在物体遮挡场景中——例如机器人前方的低矮障碍物被较高物体部分遮挡时,2D雷达只能返回最近物体的距离数据,无法区分垂直方向上的空间关系,导致"盲区效应"。
Shannon@
2 个月前
深度学习
·
机器人
·
llm
·
transformer
·
具身智能
·
gato
·
rt-1
(下)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同
接上篇《(上)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同 》