人形机器人

码农三叔2 小时前
人工智能·机器人·人形机器人
(10-4)大模型时代的人形机器人感知:感知与任务规划的联动在人形机器人系统中,感知能力和任务规划能力的协同是实现智能行为的核心。仅靠视觉、点云或语言理解并不能完成复杂任务,机器人必须将感知结果与任务规划紧密结合,实现“感知—语义—决策”闭环。这种联动不仅包括识别和定位目标,还涉及理解任务意图、分解子任务以及实时调整策略。通过将大模型的多模态理解能力与规划模块对接,机器人能够在复杂、动态环境中完成高层次操作和交互任务。
码农三叔3 小时前
人工智能·算法·机器人·人形机器人
(10-5-01)大模型时代的人形机器人感知:基于RoboBrain大模型的人形机器人通用智能感知系统(1)构建模型本节介绍的实例RoboBrain是FlagOpen(北京智源人工智能研究院(BAAI))发布的一个用于机器人操作的通用“智能大脑”开源大模型,它构建了一个基于多模态大模型(MLLM)的统一智能系统,专注于让机器人理解视觉、语言和动作之间的关系,从而实现复杂的操控任务(如规划步骤、感知可交互对象的属性、预测动作轨迹等)。该项目特别面向具身智能系统和机器人操控场景,可以为未来的人形机器人提供从感知环境到生成操作计划的智能核心能力,推进人形机器人在现实世界中的泛化操作能力。
码农三叔1 天前
深度学习·机器人·大模型·transformer·人形机器人
(10-3)大模型时代的人形机器人感知:多模态Transformer在大模型时代,人形机器人面对的环境不仅包含视觉信息,还可能涉及点云、语音、触觉等多种感知模态。多模态Transformer提供了统一的架构,使来自不同模态的数据能够在同一个模型中进行联合建模、语义对齐和推理,从而支持复杂任务的执行和高层决策。多模态Transformer的核心优势是信息融合能力:它可以学习模态间的交互关系,捕捉各模态的互补信息,使机器人能够在感知、理解和决策中实现更高的准确性和鲁棒性。
码农三叔1 天前
人工智能·机器学习·计算机视觉·3d·机器人·人形机器人
(10-2)大模型时代的人形机器人感知:3D大模型与场景理解在真实物理世界中,人形机器人所面对的环境本质上是三维的。仅依赖二维视觉信息,难以准确理解空间结构、物体形态与可操作性。随着3D感知技术与大模型的发展,融合点云、网格和几何结构的3D大模型逐渐成为机器人场景理解的重要支撑。本节围绕3D-LLM、点云与文本的跨模态查询,以及3D场景图的构建方法,系统阐述大模型如何赋予机器人对复杂三维环境的高层语义理解能力。
强化学习与机器人控制仿真1 天前
人工智能·神经网络·机器人·强化学习·扩散模型·英伟达·人形机器人
Kimodo 入门教程(一)英伟达开源人形机器人动捕数据集训练运动学动作扩散模型目录系列文章目录前言亮点一、安装1.1 配置 Hugging Face 令牌1.2 Kimodo 安装选项 1:包安装
码农三叔2 天前
人工智能·机器人·人机交互·人形机器人
(10-1)大模型时代的人形机器人感知:视觉-语言模型在机器人中的应用本章内容聚焦大模型时代人形机器人的感知体系升级,系统介绍了视觉—语言模型、多模态Transformer与3D大模型在机器人中的核心作用,详细讲解了文本、视觉、点云与语音等信息的语义对齐与融合机制,介绍了从语言指令到视觉目标的Grounding、任务分解与意图理解方法,并通过闭环感知与决策联动,展示了大模型支撑机器人在复杂真实场景中的理解、规划与实时行动的用法。
码农三叔7 天前
人工智能·嵌入式硬件·机器人·人机交互·人形机器人
(6-4-02)IMU融合与机体状态估计:综合实战:腿式机器人的IMU关节融合与状态估计(2)“src”目录包含本项目状态估计的核心算法实现和工具模块,涵盖惯性导航与人形机器人运动状态估计的完整流程,包括EKF状态预测与更新、IMU数据补偿与积分、机器人足端运动学计算、静态初始对准、导航结果与误差输出、数据流生成及可视化工具,整体提供从原始传感器数据到导航状态估计和分析的全链路功能,实现机器人高精度运动导航和状态监控。
机器觉醒时代7 天前
人工智能·具身智能·人形机器人·世界模型
DreamZero:从语言理解到世界建模——具身智能的WAM新范式在具身智能的发展进程中,机器人要实现从“语言理解”到“物理交互”的跨越,仍面临泛化能力不足、物理机理建模困难以及跨场景、跨本体迁移性差等核心挑战。以视觉-语言-动作模型(VLA)为代表的主流技术方案,借助预训练视觉-语言模型(VLM)强大的语义先验,在指令跟随与简单物体操作任务上取得了显著进展。然而,其在未知环境下的场景泛化能力,尤其是在新技能学习与运动模式生成方面的适应性,依然存在明显局限。
码农三叔7 天前
目标检测·机器人·人机交互·人形机器人
(6-4-01)IMU融合与机体状态估计:综合实战:腿式机器人的IMU关节融合与状态估计(1)本实例是一个用于基于本体感知状态估计的开源项目,通过融合机器人身上的IMU(惯性测量单元)数据和关节编码器(Joint Encoders)数据来估计腿式机器人主体的运动状态(如姿态和位置轨迹)。在本实例中提供了一个Python实现,可以对从宇树科技Unitree Go2机器人采集的ROS2 rosbag数据进行解码和状态估计,不依赖完整的ROS2环境,适合作为研究和实验用途的基础代码框架。
码农三叔8 天前
人工智能·目标检测·机器人·人机交互·人形机器人
(7-4)力觉与触觉感知:多模态接触感知模型在论文《AnyTouch: Learning Unified Static‑Dynamic Representation across Multiple Visuo‑tactile Sensors》中提出了一种统一的多传感器触觉表征学习框架,通过构建一个对齐的多模态触觉数据集TacQuad(包含来自GelSight Mini、DIGIT、DuraGel、Tac3D等多种视觉‑触觉传感器的静态图像与动态触觉视频),AnyTouch设计了多层次结构来同时学习 静态细节与动态触觉信息 的统一表征,从而增强模型对
码农三叔22 天前
人工智能·目标检测·分类·机器人·人机交互·人形机器人
(3-2-01)视觉感知:目标检测与分类在现代计算机视觉中,目标检测与分类的核心任务是让计算机能够准确地识别图像中的各类目标,并将其归类到相应的类别中。随着深度学习的发展,卷积神经网络(CNN)因其对局部特征的强大表达能力而广泛应用于各类检测任务;而近年来兴起的视觉Transformer(ViT)则通过全局自注意力机制,在处理复杂场景和长距离依赖关系时展现出新的优势。本节将从这两类主流网络模型出发,系统讲解目标检测与分类的实现方法及其特点。
码农三叔23 天前
图像处理·人工智能·嵌入式硬件·机器人·人机交互·人形机器人
(3-1-01)视觉感知:从像素到语义:图像处理基础图像处理是视觉感知系统的底层支撑,主要解决“如何获得可信、可计算的视觉数据”这一核心问题。本节从成像原理出发,介绍数字图像的表示方式与基本处理流程,重点围绕相机模型、成像几何以及标定与校正等关键技术展开,为后续的目标检测、分割与三维理解建立统一、精确的视觉坐标基础,是从像素走向高层语义的第一步。
码农三叔1 个月前
人工智能·机器人·人机交互·人形机器人
(2-1)常用传感器与基础原理:视觉传感器+激光雷达本章系统介绍了人形机器人常用的核心传感器及其基础原理,包括视觉、激光雷达、惯性测量单元(IMU)和力觉触觉传感。视觉传感器包括RGB摄像头、双目视觉与深度摄像头,用于环境三维建模与目标识别;激光雷达传感器提供高精度空间几何信息,支持点云构建与障碍物检测;IMU用于实现姿态与运动状态感知功能,同时需要处理低频漂移与高频噪声;力觉与触觉传感覆盖了足底、关节与皮肤阵列,实现平衡控制、运动力反馈及人机交互感知,为机器人稳定运动与环境交互提供基础数据支撑。
码农三叔1 个月前
人工智能·嵌入式硬件·机器人·人机交互·人形机器人
(1-1)人形机器人感知系统概述: 人形机器人感知的特点与挑战本章内容围绕人形机器人感知系统展开,系统介绍了人形机器人在高自由度运动、动态稳定性维持以及复杂人机与环境交互中所面临的感知特点与关键挑战,重点讲解了高维环境信息获取与不确定性处理的问题。在此基础上,构建了典型的人形机器人环境感知总体架构,依次阐述了传感器层、感知算法层以及融合与决策层的功能与协同关系。最后,结合当前技术发展趋势,介绍了环境感知、控制与规划深度耦合的一体化设计理念,为后续章节深入讲解具体感知技术与实现方法奠定理论基础。
码农三叔1 个月前
机器人·人机交互·人形机器人
(1-2)人形机器人感知系统概述:环境感知总体架构+“感知-控制-规划”的一体化趋势人形机器人的环境感知系统通常采用分层化、模块化的总体架构设计,以应对多模态信息复杂、实时性要求高以及系统协同难度大的技术特点。典型的感知架构可划分为传感器层、感知算法层以及融合与决策层,各层在功能上相对独立,又通过数据流和反馈机制形成紧密耦合,共同支撑机器人对复杂环境的稳定理解与自主行为生成。
码农三叔1 个月前
人工智能·嵌入式硬件·算法·机器人·人形机器人
《卷2:人形机器人的环境感知与多模态融合》《人形机器人的环境感知与多模态融合》目录第1章 人形机器人感知系统概述1.1 人形机器人感知的特点与挑战
码农三叔1 个月前
人工智能·算法·机器人·人机交互·人形机器人
(11-4-03)完整人形机器人的设计与实现案例:盲踩障碍物文件OpenLoong-Dyn-Control/demo/walk_mpc_wbc.cpp为双足机器人 MuJoCo仿真环境中实现盲踩障碍物功能提供支持。通过初始化UI、动力学求解、数据总线等模块,主循环中结合步态调度器规划步态时序,足端放置规划器确定落足位置,MPC和WBC算法实时计算关节力矩,在无环境感知(“盲”)的情况下,依靠预设控制策略与身体状态反馈,实现对障碍物的适应性踩踏,同时记录仿真数据用于分析。
码农三叔1 个月前
人工智能·嵌入式硬件·机器人·人机交互·人形机器人
(11-4-01)完整人形机器人的设计与实现案例:机器人的站立与行走“OpenLoong-Dyn-Control”项目提供了一套基于MPC(模型预测控制)和WBC(全身体控制)的仿人机器人运动控制框架,可以部署在Mujoco仿真平台上。该项目基于上海人形机器人创新中心的青龙”机器人模型,提供了行走、跳跃、盲踩障碍物等运动示例,且实物样机已实现行走和盲踩障碍功能。其具有易部署(包含主要依赖,简化环境配置)、可扩展(分层模块化设计,便于二次开发)、易理解(代码结构简洁,采用“读取-计算-写入”逻辑)等特点。
码农三叔1 个月前
人工智能·算法·机器人·人机交互·人形机器人
(11-4-02)完整人形机器人的设计与实现案例:机器人跳跃文件OpenLoong-Dyn-Control/demo/jump_mpc.cpp实现了双足机器人跳跃控制的仿真功能,集成了UI控制、数据接口、运动学动力学求解器、MPC力控制器及PVT关节控制器。通过主循环执行仿真步骤,更新传感器数据与机器人状态,分阶段(准备、起跳、上升、下降、着陆)实现跳跃控制逻辑,利用MPC计算力指令并转换为关节力矩,结合PVT控制输出力矩,同时记录了仿真时间、电机状态、位姿等数据,完成了机器人跳跃全过程的仿真与控制。
向上的车轮1 个月前
人形机器人·openloong
OpenLoong项目是什么?OpenLoong(中文名:开放龙)是一个全尺寸人形机器人全栈开源项目,旨在推动人形机器人与具身智能技术的发展和产业生态的构建。该项目由国家地方共建人形机器人创新中心推出,并已捐赠给开放原子开源基金会孵化及运营。