具身智能

HelloWorld__来都来了12 天前
人工智能·具身智能
【每日学术速报】2026-06-15【每日学术速报】2026-06-15 ▌ TL;DR(今日摘要) • 今日推送 6 篇论文:MICCAI 2025 × 3(手术AI × 2、半监督分割 × 1)、ICRA 2026 × 1、具身智能预印本 × 2 • 医学AI焦点:SurgTPGS 首次将文本提示引入3D手术场景理解;ReSurgSAM2 用自然语言参考驱动手术视频长期追踪;SSL-MedSAM2 以SAM2生成伪标签破解半监督医学分割 • 具身智能焦点:AnchorDream 用视频扩散生成具身感知训练数据(仿真+36%、真机近翻倍)
WangN214 天前
人工智能·python·学习·机器人·具身智能
【通识】宇树G1_29DOF速度跟踪训练—逐章学习手册学习方式比较简单有效:用kimi code / claude code直接基于源码设计一份教学文档,目标是一步步把我教会,形式采用互动教学形式即可
chen_zn9514 天前
人工智能·深度学习·具身智能·vla
VLA 的 Co-training:通过多源数据提升机器人泛化能力存在问题:机器人数据和互联网视觉语言数据教给模型的东西并不相同。一条常见的机器人轨迹通常包含以下信息:
君为先-bey14 天前
transformer·扩散模型·导航·具身智能·世界模型·条件扩散
NWM----导航世界模型论文标题Navigation World Models作者Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun
万俟淋曦15 天前
人工智能·ai·机器人·大模型·llm·具身智能·vla
【论文速递】2026年第04周(Jan-18-24)(Robotics/Embodied AI/LLM)中文使用 googletrans 翻译,翻译不对的地方以英文为准标题: Agentic Reasoning for Large Language Models
万俟淋曦15 天前
人工智能·ai·机器人·大模型·论文·robotics·具身智能
【论文速递】2026年第03周(Jan-11-17)(Robotics/Embodied AI/LLM)中文使用 googletrans 翻译,翻译不对的地方以英文为准In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extr
竹叶青lvye15 天前
人工智能·ros2·具身智能·接口消息·参数服务
ROS2自定义接口消息、参数服务案例接着前面的博客,我们继续深入,我们先聊自定义接口消息。回想一下前面博客,话题用的消息msg是一个String类型,服务接口类型用的是官方示例里自定义的AddTwoInts类型,动作接口类型是自定义的。实际上不管是话题,服务,动作都是可以自定义接口的。接口的作用是为了定义传输数据的结构,这样方便分布在不同位置的程序间,互相收发数据。接口 = 通信协议 = 数据格式约定。 没有接口,节点之间根本不知道对方发的是什么、怎么解析。
Godspeed Zhao15 天前
科技·汽车·航空·具身智能·evtol
跨越天际:从智能汽车到 eVTOL 的适航与系统级开发25——智能负载卸载策略在分布式电推进(DEP)的 eVTOL 运行剖面中,能量是极其稀缺且昂贵的资产。与智能汽车能够随时靠边停车、或者依赖大容量混动发动机源源不断提供辅助发电的工况不同,eVTOL 在遭遇突发空中紧急情况(如某组动力电池包热失控被迫隔离、或者遭遇大跨度风切变导致多电机全功率超载运行)时,整机微电网(HVDC)将瞬间面临电能供需失衡的致命危机。
chen_zn9515 天前
人工智能·深度学习·具身智能·vla
OpenPi、GR00T的视觉语言模型与动作模型连接方式差异分析总结VLA模型通常可以拆成两个逻辑模块:视觉语言模型和动作生成模型,前者用于生成视觉语言语义特征,后者用于生成连续动作序列。
REDcker15 天前
机器人·开源项目·具身智能
TidyBot2 完整文档本文档为 TidyBot2(jimmyyhwu/tidybot2)技术文档,合并多章节内容,便于离线阅读。
chen_zn9516 天前
人工智能·强化学习·具身智能·vla
RLinf复现RECAP(一):从轨迹回报到优势标签与RECAP数据处理相关的代码主要位于,完整数据流如下,RLinf不会把Return和Advantage直接写回原始轨迹文件,而是保存成独立的Sidecar Parquet。例如,
Robot_Nav16 天前
具身智能·模仿学习·轮式双臂机器人·全向移动
TidyBot++ 一种用于机器人学习的开源全向移动机械臂【文献解读】论文标题:TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning
chen_zn9516 天前
人工智能·强化学习·具身智能·vla
RLinf复现RECAP(二):优势标签驱动pi0.5的CFG训练CFG全称为Classifier-Free Guidance(无分类器引导),最初主要用于扩散生成模型,通过比较条件预测和无条件预测,让生成结果更符合指定条件。例如,在图像生成任务中,模型可以分别计算,
chen_zn9516 天前
人工智能·深度学习·强化学习·具身智能·vla
pi*0.6的RECAP:VLA如何从成功、失败和人工纠正中继续学习VLA 模型通常从人工示范中学习,训练数据告诉模型,看到这个画面和任务指令时,执行这组机器人动作。这种方法适合让机器人快速掌握基本技能,但存在一个明显问题,模型只知道模仿数据,不知道数据中的动作到底有多好。
深蓝学院16 天前
机器人·触觉·具身智能
Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖首次让触觉数据从“数值”变成“可理解的信息”——鸽眼的启发目录01 传统触觉传感器的痛点电子皮肤(e-skin):分辨率和模态难两全
想要成为计算机高手17 天前
人工智能·docker·机器人·xr·g1·具身智能
用meta quest 3 遥操宇树机器人-xr_teleoperate 复现(含docker安装与配置方式)最近采购了meta quest 3,现已完成了在so101单臂上的遥操作,这个机械臂的结构比较简单,接口完善,也有 python_sdk包,整体没有什么困难的地方,而我最终目标是遥操自研机械臂,可能没有相关的适配,这个可能还是个问题。
chen_zn9517 天前
具身智能·vla·piper·gr00t
Isaac GR00T N1.7在Piper真机上的服务端/客户端部署实践Isaac GR00T N1.7是一个面向通用机器人操作任务的VLA模型。模型推理依赖GPU环境,而Piper真机侧则依赖CAN总线、RealSense相机、机器人SDK和本地安全控制逻辑。
Agilex松灵机器人17 天前
大数据·人工智能·机器人·具身智能·松灵机器人
万小时数据落地!松灵机器人构建具身智能数据新基建进入 2026 年,一个新的现实是:算法模型的差距正在快速收敛,而高质量的真机数据成为了核心稀缺资源。
机器人零零壹17 天前
具身智能·机器人仿真·并联机器人·机器人离线编程·关节设计
访越擎科技机器人离线编程软件iRobotCAM创始人:具身智能爆发前夕,我如何参与?具身智能为火热从理想,小鹏,广汽等汽车巨头的进入,到小米,荣耀等手机巨头的推进,在技术从视觉到控制等供应链成熟的基础上,在物流搬运,生产制造等持续加速落地。而对于生产制造领域,本次采访具身智能一线企业南京越擎信息科技有限公司iRobotCAM具身智能设计与离线编程软件创始人,进一步探讨具身智能的技术的落地节奏的特点,行业趋势的发展,以及企业面对具身智能变革的当前如何参与等热门话题。
深蓝学院17 天前
具身智能·空间智能
李飞飞团队新作:首个闭合感知‑行动回路的具身空间智能基准只有任务导向的主动观测,才是空间推理的关键。——感知‑行动闭环目录01 核心定位:ESI‑BENCH到底在测什么?