具身智能

寻丶幽风5 天前
论文阅读·笔记·机器人·具身智能·vla
论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language PriorsRoboGround 论文 一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。
寻丶幽风6 天前
论文阅读·笔记·机器人·具身智能·动态推理
论文阅读笔记——STDArmSTDArm 论文 将静态转化为动态时,面临几个问题:1)推理延迟高;2)Action Chunk 的方式导致对环境响应能力差。过去的方法都采用减少扩散策略的去噪步数以提升整体推理频率(加速策略本身推理频率),STDArm 则采用动作管理器和 插值动作补偿。——相比于压缩算法,优化执行架构的方式也可以提升频率。(STDArm 部署在边缘设备 Jetson Xavier 上) 策略网络的输入是 m o m_o mo 步观测数据 O,末端执行器的位置坐标(u)。采用 ResNet18作为视觉骨干,然后接 DP
望获linux8 天前
linux·人工智能·机器人·操作系统·开源软件·rtos·具身智能
北京亦庄机器人马拉松:人机共跑背后的技术突破与产业启示2025年4月19日,北京亦庄举办了一场具有里程碑意义的科技赛事——全球首个人形机器人半程马拉松。这场人类与20支机器人战队共同参与的21.0975公里竞速,不仅创造了人形机器人连续运动的最长纪录,更成为中国智能制造领域的综合性技术验证平台。通过整合赛事真实数据与产业反馈,本文将对这一事件的创新价值与现实意义进行系统性梳理与修正。
万俟淋曦9 天前
人工智能·ai·机器人·大模型·llm·论文·具身智能
【论文速递】2025年09周 (Robotics/Embodied AI/LLM)标题: LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
寻丶幽风9 天前
论文阅读·笔记·机器人·具身智能·世界模型
论文阅读笔记——TesserAct: Learning 4D Embodied World ModelsTesserAct 论文 采用RGB-DN(RGB+深度+法线) 作为 4D 场景中间表示,由此建模 4D 场景,比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成,优化速度快,收敛好,且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。 建模分布为 p ( v , d , n ∣ v 0 , d 0 , n 0 , T ) p(v,d,n|v^0,d^0,n^0,T) p(v,d,n∣v0,d0,n0,T) 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序
机器觉醒时代11 天前
开源数据集·具身智能·遥操作
详解具身智能机器人开源数据集:RoboMIND一、RoboMIND基础信息RoboMIND 发布时间:2024年12月创建方:国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建。
KuaFuAI12 天前
科技·信息可视化·具身智能
2025年具身智能科技研报本报告系统梳理了2025年具身智能领域的最新进展,基于国内外权威新闻源与行业研究报告,通过数据可视化与深度分析相结合的方式,呈现该领域多维发展态势。从技术突破层面看,多模态大模型的突破性进展为具身智能注入新动能,如Google DeepMind的RT系列视觉-语言-动作模型显著提升机器人泛化能力[1],而OpenAI最新发布的GPT-4.5模型通过扩展无监督学习,增强了与物理世界的交互自然度[8]。产业动态方面,国内第二届中国具身智能大会(CEAI2025)的召开标志着行业生态加速成熟,会上发布的十五大重
寻丶幽风13 天前
论文阅读·笔记·深度学习·机器人·机械臂·具身智能
论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic GraspingZeroGrasp 论文 多视角重建计算大、配置复杂,本文将稀疏体素重建(快且效果好)引入机器人抓取且只考虑单目重建,通过利用基于物理的接触约束与碰撞检测(这对精确抓取至关重要),提升三维重建质量将直接改善抓取位姿预测。
视觉语言导航14 天前
人工智能·深度学习·机器人·transformer·具身智能
复杂地形越野机器人导航新突破!VERTIFORMER:数据高效多任务Transformer助力越野机器人移动导航结合统一表示,VERTIFORMER 提出了一种随机可学习的掩码建模技术,以实现多任务学习。在训练过程中,模型首先在所有模态上进行预热,然后以相等的概率应用两种不同的数据掩码方法:
望获linux17 天前
linux·机器人·操作系统·开源软件·rtos·具身智能
实时操作系统在服务型机器人中的关键作用近年来,服务型机器人市场呈现出蓬勃发展的态势。据国际机器人联合会(IFR)2024 年度报告显示,全球人形机器人市场规模预计在 2025 年达到 38.7 亿美元,年复合增长率达 19.2%。服务型机器人被广泛应用于家庭清洁、安防监控、物流配送、餐饮服务等多个领域,为人们的生活和工作带来了诸多便利。
放羊郎18 天前
机器人·具身智能·人形机器人·半程马拉松·北京亦庄
2025年首届人形机器人半程马拉松比赛(附机器人照片)2025年4月19日,北京亦庄半程马拉松暨人形机器人半场马拉松正式开赛,作为全球首届人形机器人户外跑步成功举办,21.0975公里的户外路程对人形机器人来讲,注定将成为历史性开篇,如果赛事能够持续举办,那举办意义必将远超机器人本身的展示效果,尽管机器人本体在本次比赛中有些不尽如人意,但是敢于站上赛场就是勇气和胜利。(一线的厂家并未全部参赛,不知何故,即使宇树也官宣自己未参赛,自己机器人摔倒是客户自行使用宇树产品,并非官方组织)。
万俟淋曦20 天前
人工智能·ai·机器人·大模型·论文·具身智能·vla
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)作者: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingx
视觉语言导航21 天前
人工智能·深度学习·机器人·具身智能
ICPR-2025 | 让机器人在未知环境中 “听懂” 指令精准导航!VLTNet:基于视觉语言推理的零样本目标导航作者:Congcong Wen, Yisiyuan Huang, Hao Huang ,Yanjia Huang, Shuaihang Yuan, YuHao, HuiLin and Yi Fang
视觉语言导航1 个月前
人工智能·深度学习·具身智能
IJCV-2025 | 深圳大学记忆增强的具身导航!ESceme:基于情景记忆的视觉语言导航论文首次提出Episodic Scene Memory(ESceme)场景记忆机制,通过记忆过去的访问场景来平衡泛化能力和效率。
寻丶幽风1 个月前
论文阅读·笔记·机器人·dp·具身智能
论文阅读笔记——Reactive Diffusion PolicyRDP 论文ACT、 π 0 \pi_0 π0 采取了动作分块,在动作分块执行期间处于开环状态,无法及时响应环境变化,缺乏触觉输入,无法适应高精度(力控制)任务和及时响应。现有的触觉输入是侧重于观察方面,利用触觉输入提供视觉遮挡或接触状态判断等信息。在数据上,MTDP(Mixed-Teleoperation Demonstration Policy)通过增强现实(AR)技术实现了两大突破性改进:1)异构机器人兼容性 - 克服了传统ALOHA双边控制系统必须使用同构机器人的限制;2)成本优化 - 相比基于专
视觉语言导航1 个月前
人工智能·机器人·具身智能
ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理论文主要解决的问题是家庭机器人在导航不熟悉环境时面临的挑战,特别是如何在不进行大量地图绘制和探索的情况下,实现零样本导航。
BFT白芙堂1 个月前
人工智能·算法·机器学习·具身智能·franka机器人·科研机器人·机器人解决方案
Franka 机器人x Dexterity Gen引领遥操作精细任务新时代教授机器人工具灵活操作难题在教授机器人灵活使用工具方面,目前主要有两种策略:一是人类遥控(用于模仿学习),二是模拟到现实的强化学习。然而,这两种方法均存在明显的局限性。
视觉语言导航1 个月前
人工智能·机器人·具身智能
基于视觉语言模型的机器人实时探索系统!ClipRover:移动机器人零样本视觉语言探索和目标发现该问题的研究难点包括:此外,决策模块还包括两个附加功能:为了增强管道中位置信息的嵌入,原始相机帧在输入视觉语言模型之前被分割成更小的tiles。
视觉语言导航1 个月前
人工智能·深度学习·机器人·无人机·具身智能
华东师范地面机器人融合空中无人机视角的具身导航!KiteRunner:语言驱动的户外环境合作式局部-全局导航策略该问题的研究难点包括:视觉-语言整合的语义导航:扩散模型用于局部路径规划:基于俯视图的全局规划:VLP负责从自然语言指令中提取语义地标,并将其与存储在拓扑图中的视觉地标进行匹配,以生成最优路径。具体步骤包括:
寻丶幽风1 个月前
论文阅读·笔记·扩散模型·具身智能·双壁机器人
论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATIONRDT-1B 论文 模型表达与泛化能力:由于双臂操作中动作空间维度是单臂空间的两倍,传统方法难以建模其多模态分布。 数据:双臂数据少且不同机器人的物理结构和动作空间差异(如关节数、运动范围)导致数据分布不一致,直接合并训练可能引发负迁移(negative transfer)。