技术栈
具身智能
具身智能之心
11 小时前
具身智能
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
在具身智能领域,强化学习 (RL) 正成为继有监督微调 (SFT) 之后提升视觉-语言-动作 (VLA) 模型表现的关键。最近 Physical Intelligence 发布的 π 0.6 ∗ \pi^*_{0.6} π0.6∗ 利用 RECAP 框架证明了这一路径的潜力。然而,构建高质量的奖励或价值模型通常代价高昂。
具身智能之心
13 小时前
机器人
·
具身智能
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型
在 embodied AI 领域,视觉 - 语言 - 动作(VLA)模型与世界模型的发展虽展现出通用自主能力的巨大潜力,却始终受限于核心瓶颈——大规模、多样化机器人训练数据的稀缺。现有解决方案要么依赖成本高昂的真实机器人数据采集,要么通过简单叠加机器人部件编辑第一视角人类视频,均无法应对第三人称视频中的全身复杂动作、动态背景与严重遮挡问题。
具身智能之心
2 天前
具身智能
·
泛化能力
NeurIPS‘25 | 港大×达摩院HiMaCon:泛化失败不在于策略学习不足,而在于缺乏“操作概念“
论文标题:HiMaCon: Discovering Hierarchical Manipulation Concepts from Unlabeled Multi-Modal Data
具身智能之心
3 天前
具身智能
·
vla模型
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
在机器人操控领域,视觉 - 语言 - 动作(VLA)模型虽已实现语言指令驱动的任务执行,但在陌生物体处理、跨机器人技能迁移等泛化能力上仍存在瓶颈。现有方案多依赖预训练视觉语言理解模型,难以突破训练数据的场景限制。
TTGGGFF
3 天前
数码相机
·
机械臂
·
具身智能
具身智能:零基础入门睿尔曼机械臂(六)——手眼标定代码库详解,从原理到实践
手眼标定是机器人视觉领域的关键技术,它解决了机械臂与相机之间的坐标转换问题,为精准抓取、视觉伺服等应用奠定基础。上一篇博客中我们讲解了手眼标定的概念以及原理,本文将详细解析睿尔曼官方提供的完整的手眼标定代码库,包括其结构设计、核心功能及使用方法,帮助读者快速掌握手眼标定的实现流程。
人工智能培训
3 天前
人工智能
·
神经网络
·
大模型
·
dnn
·
具身智能
·
智能体
·
大模型学习
DNN案例一步步构建深层神经网络(二)
三、深层神经网络
人工智能培训
3 天前
人工智能
·
深度学习
·
大模型
·
具身智能
·
智能体
·
智能体构建
·
大模型智能体
什么是基于大模型的智能体构建?
在人工智能迅速发展的今天,大语言模型(Large Language Models, LLMs)已经从单纯的文本生成工具演变为推动新一代智能系统的核心引擎。基于大模型的智能体构建,正是这一技术浪潮中最具前景的方向之一。它不仅仅是让机器“说话”或“写作”,而是赋予其感知、思考、决策和行动的能力,使其能够像人类一样在复杂环境中自主完成任务。
人工智能培训
4 天前
人工智能
·
深度学习
·
神经网络
·
大模型
·
dnn
·
具身智能
DNN案例一步步构建深层神经网络
TTGGGFF
4 天前
机械臂
·
手眼标定
·
具身智能
具身智能:零基础入门睿尔曼机械臂(五)—— 手眼标定核心原理与数学求解
在机器人与计算机视觉的交叉领域,精确的空间坐标映射是实现机械臂与环境高效交互的核心前提。想象这样一个场景:工业机器人需要从传送带上抓取随机摆放的零件,或是服务机器人要精准拾取用户指定的物品——相机作为“眼睛”能识别目标的位置,但机械臂作为“手”却只理解自身坐标系下的指令。如何让“眼”看到的信息准确传递给“手”?手眼标定正是解决这一问题的关键技术。 手眼标定的本质是建立相机坐标系与机械臂坐标系之间的刚性变换关系,通过这一关系,可将相机检测到的目标坐标实时转换为机械臂能够执行的运动指令。无论是工业生产中的自动
网易伏羲
4 天前
人工智能
·
群体智能
·
具身智能
·
游戏ai
·
网易伏羲
·
网易灵动
·
网易有灵智能体
网易伏羲受邀出席2025具身智能人形机器人年度盛会,并荣获“偃师·场景应用灵智奖
12月5日,2025(第三届)具身智能人形机器人场景应用生态年会在安徽合肥启幕,会议由合肥市包河区人民政府、移动机器人产业联盟等主办,汇聚60余家供应链企业、40余家产业链企业及千余家行业代表,聚焦具身智能融合创新与场景落地,共探技术落地与生态共建。
TTGGGFF
5 天前
机械臂
·
具身智能
·
睿尔曼
具身智能:零基础入门睿尔曼机械臂(四)—— 夹爪无响应?官方例程踩坑与排错实战
上一篇我们基于睿尔曼官方夹爪控制例程,拆解了夹爪“抓取-释放”的核心代码逻辑,从参数含义、函数作用到执行流程做了全维度解析,本以为只需按例程部署就能完成实操落地,却在实际安装夹爪并运行代码时遇到了核心问题——机械臂关节运动完全正常,但末端夹爪始终无任何物理动作。
世岩清上
6 天前
百度
·
ai
·
交互
·
具身智能
·
数字化展示
·
展陈
具身智能与数字化展示:开启未来交互新纪元
在科技飞速发展的当下,人工智能领域正经历着前所未有的变革。具身智能,这一曾经仅存在于科幻想象中的概念,如今正逐步走出实验室,走进现实生活。它赋予了人工智能以“身体”,让机器能够像人类一样与物理世界进行深度交互,感知环境、理解情境并做出决策。而数字化展示,作为信息传播与交互的重要手段,也在不断进化,从传统的二维平面展示迈向沉浸式、交互式的多维体验。当具身智能遇上数字化展示,一场科技与艺术的交融、现实与虚拟的碰撞就此展开,为我们开启了一个全新的未来交互纪元。
音视频牛哥
9 天前
人工智能
·
计算机视觉
·
音视频
·
具身智能
·
具身智能低延迟方案
·
智能机器人rtsp rtmp
·
rtsp、rtmp低延迟播放器
具身智能时代的音视频架构重构:从延迟到多模态的技术挑战
过去的十年,互联网通过屏幕连接了“人与人”,而未来的十年,将是AI通过传感器与“物理世界”深度交互的十年。随着大模型(LLM)向多模态发展,具身智能(Embodied AI)——指的是拥有物理实体,能够与环境进行感知与交互的智能系统(如人形机器人、自动驾驶汽车、工业无人机)——正成为科技界的下一个风口。
BFT白芙堂
10 天前
人工智能
·
学习
·
机器学习
·
自动化
·
模型训练
·
具身智能
·
franka
Franka机械臂“举一反三”:LLM Trainer如何通过单次演示实现自动化数据生成与长程任务学习
在机器人学习领域,获取高质量的真实世界训练数据一直是一个昂贵且耗时的瓶颈。卡内基梅隆大学的研究团队提出了一种名为“LLM Trainer”的创新框架,利用大语言模型(LLM)的世界知识,仅需单次人类演示即可自动生成大量有效的训练数据。本文将重点剖析该系统如何在Franka Research 3 (Franka Emika Panda) 机械臂平台上成功落地,完成复杂的长程操作任务,并展示其在硬件实验中超越仿真预期的惊人表现。
广州虚拟动力-动捕&虚拟主播
11 天前
机器人
·
具身智能
·
机器人数据采集
人形机器人数据采集与转化 | 赋能机器人实现复杂动作表达与执行
随着人形机器人技术向实用化、智能化加速演进,如何高效、自然地实现复杂动作的交互表达与执行,已成为人形机器人研发中的核心挑战之一。在众多技术探索路径中,基于动作捕捉的机器人动作训练方案,凭借数据采集的真实性与转化执行的高效性,为解决这一难题提供了切实可行的技术路径。
DARLING Zero two♡
12 天前
前端
·
3d
·
具身智能
具身智能的“iPhone时刻”:魔珐星云3D数字人Web端SDK接入全流程深度测评
免责声明:此篇文章所有内容皆是本人实验,并非广告推广,并非抄袭,如有侵权,请联系2024-2025年,AI圈最火的词是什么?除了LLM(大语言模型),一定是具身智能(Embodied AI)。
2的n次方_
12 天前
人工智能
·
具身智能
·
魔珐星云
给 AI 赋予 “身体”:魔珐星云具身智能数字人(SDK 接入 + 多场景落地)
魔珐星云是魔珐科技推出的具身智能 3D 数字人开放平台,核心使命是为 AI 赋予 “身体” 与 “表达能力”。与传统数字人平台不同,它不只是提供单一的数字人形象,而是通过全栈式技术封装,让开发者无需关注复杂的 3D 渲染、动作生成等底层逻辑,只需简单调用 SDK,就能让大模型具备语音、表情、动作兼备的多模态交互能力。
人工智能培训
13 天前
人工智能
·
rnn
·
深度学习
·
大模型
·
具身智能
·
大模型学习
·
大模型工程师
循环神经网络讲解(2)
#人工智能#具身智能#VLA#大模型#AI#LLM#Transformer 架构#AI技术前沿#Agent大模型#工信部证书#人工智能证书#职业证书
卡洛斯(编程版
13 天前
具身智能
【论文阅读】3D-VisTA:具身智能中统一多种下游任务的预训练Transformer模型
本文发表于2023年。聚焦3D-Visual Language Grounding(视觉-语言接地),提出了一种用于3D视觉与文本对齐的已经预训练过的Transformer(1),并构建了首个用于3D-VL预训练的大规模3D场景-文本数据集scanscribe数据集(2)。scanscribe包括来自原有大型数据集scannet和3rscan数据集,并由gpt生成场景的描述。
万俟淋曦
13 天前
人工智能
·
深度学习
·
ai
·
机器人
·
论文
·
robotics
·
具身智能
【论文速递】2025年第33周(Aug-10-16)(Robotics/Embodied AI/LLM)
中文使用 googletrans 翻译,翻译不对的地方以英文为准标题: GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models