人形机器人

kobesdu7 天前
算法·机器人·人形机器人
人形机器人SLAM:技术挑战、算法综述与开源方案人形机器人双足步态使其感知基座持续“浮动”,传统为轮式平台设计的SLAM面临系统性困境,核心难点包括:
Rubin智造社12 天前
人形机器人·claude code·gemini cli·openai agents·seedance版权
04月16日AI每日参考:Gemini Mac版上线,OpenAI Agents SDK升级沙箱隔离今天AI圈有两件事值得重点关注。一是Google Gemini原生Mac应用正式发布,Option+Space全局唤起,直接对标ChatGPT和Claude桌面端,桌面AI入口之争进入新阶段。二是OpenAI更新Agents SDK,引入沙箱隔离机制,企业级Agent开发的安全性和可控性大幅提升。国内方面,中国人形机器人首次完成8小时工厂直播班次,CAC发布互动AI服务监管草案,AI监管进入情感交互领域。
BBTSOH1590151604414 天前
人工智能·机器人·vr·具身智能·人形机器人·机械手·遥操作
VR每日简报2026.4.14小鹏汽车董事长何小鹏3月在业绩会上透露,全新一代IRON人形机器人将于2026年底实现量产,搭载三颗图灵AI芯片,第二代VLA技术栈已跑通。今年一季度已在广州启动量产基地建设,年底月产能目标上千台,将优先在门店及园区落地导览、导购等场景。
一颗小树x21 天前
vla·人形机器人·humdex·全身灵巧操作·遥操作系统
《VLA 系列》HumDex | 人形机器人 | 全身灵巧操作 | 遥操作系统 | 数据采集HumDex 是一个面向人形机器人 全身灵巧操作的便携式遥操作系统。论文地址:HumDex: Humanoid Dexterous Manipulation Made Easy
一颗小树x22 天前
机器人·开源数据集·人形机器人·vlm
《VLA 系列》Humanoid Everyday | 人形机器人 | 开源数据集Humanoid Everyday 是首个面向开放世界的人形机器人,大规模多模态数据集,涵盖260个真实场景任务、超1万条演示轨迹与300万帧30Hz高频数据,覆盖基础操作、移动操作、人机交互等七大技能类别,
码农三叔1 个月前
人工智能·机器人·大模型·人形机器人
(2-1)常用传感器与基础原理:视觉传感器本章系统介绍了人形机器人常用的核心传感器及其基础原理,包括视觉、激光雷达、惯性测量单元(IMU)和力觉触觉传感。视觉传感器包括RGB摄像头、双目视觉与深度摄像头,用于环境三维建模与目标识别;激光雷达传感器提供高精度空间几何信息,支持点云构建与障碍物检测;IMU用于实现姿态与运动状态感知功能,同时需要处理低频漂移与高频噪声;力觉与触觉传感覆盖了足底、关节与皮肤阵列,实现平衡控制、运动力反馈及人机交互感知,为机器人稳定运动与环境交互提供基础数据支撑。
码农三叔1 个月前
人工智能·机器人·人形机器人
(2-2)常用传感器与基础原理:激光雷达激光雷达(LiDAR, Light Detection and Ranging)是人形机器人环境感知系统中用于获取精确三维空间几何信息的核心传感器,能够在各种光照和部分复杂环境条件下提供高精度距离测量。与视觉传感器不同,激光雷达直接通过激光脉冲返回时间计算距离,不受被动光照变化影响,因此在弱光、强光或部分烟雾环境下仍能稳定工作。激光雷达的主要功能包括障碍物检测、三维环境重建、地形测量、动态目标跟踪以及机器人路径规划支撑,是实现机器人自主导航和高精度运动控制的重要硬件基础。
码农三叔1 个月前
人工智能·机器学习·机器人·人形机器人
(1-2)控制系统基础与人形机器人特点:人形机器人控制的特殊挑战与传统工业机器人或移动机器人相比,人形机器人在结构形式、运动方式和应用场景上都更接近人类,这使其在控制层面面临一系列独特且更为复杂的挑战。本节从系统结构和动力学本质出发,分析人形机器人控制中最具代表性的三类困难:高自由度与强耦合、显著的非线性特征,以及频繁的人机与机地接触所带来的复杂性,为后续全身控制与高级控制方法的讨论奠定问题背景。
码农三叔1 个月前
人工智能·机器人·人形机器人
第三卷:《人形机器人的控制与运动规划》第1篇 控制基础与动力学建模第1章 控制系统基础与人形机器人特点1.1 控制系统基本概念1.1.1 开环与闭环控制
码农三叔1 个月前
人工智能·机器人·agent·人形机器人
(11-4-02)感知-运动耦合与行为理解:人形机器人沉浸式感知运动协同系统(2)人形机器人运动控制在本实例中,人形机器人运动控制以统一接口协议为基础,支持真实硬件与虚拟调试双模式,通过关节配置(ID、偏移量、符号修正)、扭矩开关、角度范围映射及数据滤波优化,实现关节状态精准读写与动作指令下发;同时适配双机械臂协同控制、相机挂载机器人姿态调整等场景,配套参数校验与初始化校准机制,为上层遥操作、主动视觉控制等逻辑提供稳定、灵活的底层运动控制支撑。
码农三叔1 个月前
人工智能·机器人·自动驾驶·agent·人形机器人
(11-3)感知-运动耦合与行为理解:行为识别与预测行为识别与预测是机器人理解和适应人类及环境动态行为的核心能力。通过感知环境与目标动作、预测未来轨迹及意图,机器人能够提前调整自身策略,实现安全、协作与高效交互。该能力是人机共存环境中自主运动、协作操作和社会性行为的重要基础。
码农三叔1 个月前
自动驾驶·人形机器人
自动驾驶核心技术:环境感知、路径规划与实时地图导航的全栈实践一、自动驾驶技术范式:感知 - 规划 - 导航的闭环演进自动驾驶技术的本质是构建一套环境感知 - 行为决策 - 运动控制 - 实时导航的闭环智能系统,其核心目标是在动态、不确定的交通场景中,实现安全、高效、舒适的自主行驶。这一范式可拆解为四大核心模块:
码农三叔1 个月前
人工智能·机器学习·机器人·人形机器人
(10-5-03)大模型时代的人形机器人感知:基于RoboBrain大模型的人形机器人通用智能感知系统(3)模型训练文件train/train.py是基于本实例的多模态(图文/视频)大语言模型训练脚本,核心功能包括定义模型、数据、训练三大类参数配置类,适配多模态模型不同组件(视觉塔、MLP适配器、语言模型等)的调优参数;提供了零冗余优化(Zero)兼容的参数处理、PEFT/LoRA权重提取、模型安全保存等工具函数,以及分词器与嵌入层自适应调整的功能;针对Llama2、Gemma、Qwen、Llama3、MPT等不同架构模型实现了对应的对话数据预处理逻辑,涵盖了多模态token(图片/视频)处理、对话prompt模板适配
码农三叔1 个月前
人工智能·机器人·人形机器人
(10-4)大模型时代的人形机器人感知:感知与任务规划的联动在人形机器人系统中,感知能力和任务规划能力的协同是实现智能行为的核心。仅靠视觉、点云或语言理解并不能完成复杂任务,机器人必须将感知结果与任务规划紧密结合,实现“感知—语义—决策”闭环。这种联动不仅包括识别和定位目标,还涉及理解任务意图、分解子任务以及实时调整策略。通过将大模型的多模态理解能力与规划模块对接,机器人能够在复杂、动态环境中完成高层次操作和交互任务。
码农三叔1 个月前
人工智能·算法·机器人·人形机器人
(10-5-01)大模型时代的人形机器人感知:基于RoboBrain大模型的人形机器人通用智能感知系统(1)构建模型本节介绍的实例RoboBrain是FlagOpen(北京智源人工智能研究院(BAAI))发布的一个用于机器人操作的通用“智能大脑”开源大模型,它构建了一个基于多模态大模型(MLLM)的统一智能系统,专注于让机器人理解视觉、语言和动作之间的关系,从而实现复杂的操控任务(如规划步骤、感知可交互对象的属性、预测动作轨迹等)。该项目特别面向具身智能系统和机器人操控场景,可以为未来的人形机器人提供从感知环境到生成操作计划的智能核心能力,推进人形机器人在现实世界中的泛化操作能力。
码农三叔1 个月前
深度学习·机器人·大模型·transformer·人形机器人
(10-3)大模型时代的人形机器人感知:多模态Transformer在大模型时代,人形机器人面对的环境不仅包含视觉信息,还可能涉及点云、语音、触觉等多种感知模态。多模态Transformer提供了统一的架构,使来自不同模态的数据能够在同一个模型中进行联合建模、语义对齐和推理,从而支持复杂任务的执行和高层决策。多模态Transformer的核心优势是信息融合能力:它可以学习模态间的交互关系,捕捉各模态的互补信息,使机器人能够在感知、理解和决策中实现更高的准确性和鲁棒性。
码农三叔1 个月前
人工智能·机器学习·计算机视觉·3d·机器人·人形机器人
(10-2)大模型时代的人形机器人感知:3D大模型与场景理解在真实物理世界中,人形机器人所面对的环境本质上是三维的。仅依赖二维视觉信息,难以准确理解空间结构、物体形态与可操作性。随着3D感知技术与大模型的发展,融合点云、网格和几何结构的3D大模型逐渐成为机器人场景理解的重要支撑。本节围绕3D-LLM、点云与文本的跨模态查询,以及3D场景图的构建方法,系统阐述大模型如何赋予机器人对复杂三维环境的高层语义理解能力。
强化学习与机器人控制仿真1 个月前
人工智能·神经网络·机器人·强化学习·扩散模型·英伟达·人形机器人
Kimodo 入门教程(一)英伟达开源人形机器人动捕数据集训练运动学动作扩散模型目录系列文章目录前言亮点一、安装1.1 配置 Hugging Face 令牌1.2 Kimodo 安装选项 1:包安装
码农三叔1 个月前
人工智能·机器人·人机交互·人形机器人
(10-1)大模型时代的人形机器人感知:视觉-语言模型在机器人中的应用本章内容聚焦大模型时代人形机器人的感知体系升级,系统介绍了视觉—语言模型、多模态Transformer与3D大模型在机器人中的核心作用,详细讲解了文本、视觉、点云与语音等信息的语义对齐与融合机制,介绍了从语言指令到视觉目标的Grounding、任务分解与意图理解方法,并通过闭环感知与决策联动,展示了大模型支撑机器人在复杂真实场景中的理解、规划与实时行动的用法。
码农三叔2 个月前
人工智能·嵌入式硬件·机器人·人机交互·人形机器人
(6-4-02)IMU融合与机体状态估计:综合实战:腿式机器人的IMU关节融合与状态估计(2)“src”目录包含本项目状态估计的核心算法实现和工具模块,涵盖惯性导航与人形机器人运动状态估计的完整流程,包括EKF状态预测与更新、IMU数据补偿与积分、机器人足端运动学计算、静态初始对准、导航结果与误差输出、数据流生成及可视化工具,整体提供从原始传感器数据到导航状态估计和分析的全链路功能,实现机器人高精度运动导航和状态监控。