具身智能

BFT白芙堂9 小时前
机器学习·机器人·移动机器人·论文解读·具身智能·双臂机器人·cobotmagic
清华大学联合项目 论文解读 | MoTo赋能双臂机器人:实现零样本移动操作移动操作是机器人领域的核心挑战,它使机器人能够在各种任务和动态日常环境中为人类提供帮助。传统的移动操作方法由于缺乏大规模训练,往往难以在不同任务和环境中实现泛化。而现有操作基础模型虽在固定基座任务中表现出强泛化性,却无法支持移动基座运动,难以直接应用于移动操作场景。
武子康11 小时前
人工智能·程序人生·ai·职场和发展·系统架构·机器人·具身智能
AI-调查研究-74-具身智能 机器人学习新突破:元学习与仿真到现实迁移的挑战与机遇AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
Deepoch13 小时前
人工智能·科技·机器人·人机交互·具身智能
当按摩机器人“活了”:Deepoc具身智能如何重新定义人机交互体验你是否曾对着一台冰冷的按摩设备,试图用生硬的按钮切换模式,却总觉得它“不懂你”?是否在疲惫时渴望得到一次精准的个性化服务,却发现机器只会重复预设程序?
视觉语言导航4 天前
人工智能·具身智能
南科大适应、协同与规划的完美融合!P³:迈向多功能的具身智能体P³框架是一个用于构建多功能具身智能体的系统,旨在实现实时的全任务感知、开放式工具插件和多任务规划。该框架的核心目标是使智能体能够在动态环境中自主感知任务、灵活使用工具,并高效管理多任务的执行。
陈敬雷-充电了么-CEO兼CTO5 天前
大数据·人工智能·机器学习·chatgpt·机器人·具身智能
具身智能模拟器:解决机器人实机训练场景局限与成本问题的创新方案注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
视觉语言导航6 天前
人工智能·具身智能
ICCV-2025 | 清华动以知景导航框架!MTU3D:连接视觉定位与探索,实现高效多样的具身导航
武子康7 天前
人工智能·程序人生·ai·职场和发展·交互·个人开发·具身智能
66AI-调查研究-68-具身智能 应用全景:家庭、工业、医疗、交通到虚拟交互的未来趋势AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的模型 + 深度思考模型 + 实时路由”,持续打造实用AI工具指南!📐🤖
陈敬雷-充电了么-CEO兼CTO7 天前
人工智能·gpt·机器学习·chatgpt·机器人·机器翻译·具身智能
66具身智能让人形机器人 “活” 起来:懂语言、能感知、会行动,智能进化再提速注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
视觉语言导航11 天前
机器人·无人机·具身智能
具身导航助力果园种植!基于模仿学习的果园环境无人机视觉导航开发了一套定制化四旋翼无人机平台,其主要特征如下:机体结构:450 mm 轴距,最大起飞重量 1.8 kg,续航约 13 分钟。
AndrewHZ12 天前
算法·3d·blender·nvidia·贴图·具身智能·isaac sim
【三维渲染技术讨论】Blender输出的三维文件里的透明贴图在Isaac Sim里会丢失, 是什么原因?Blender导出的三维文件在Isaac Sim中丢失透明贴图,通常与文件格式兼容性、材质属性映射、导出设置或Isaac Sim材质解析逻辑有关。以下是具体原因分析和解决方法:
视觉语言导航14 天前
人工智能·深度学习·机器人·具身智能
中农具身导航赋能智慧农业!AgriVLN:农业机器人的视觉语言导航作者:Xiaobei Zhao, Xingqi Lyu, Xiang Li单位:中国农业大学论文标题:AgriVLN: Vision-and-Language Navigation for Agricultural Robots
视觉语言导航17 天前
人工智能·3d·具身智能
上科大解锁城市建模新视角!AerialGo:从航拍视角到地面漫步的3D城市重建航拍视角数据收集:地面视角数据收集:AerialGo框架通过条件化地面视角合成来利用可获取的航拍数据,从而绕过地面图像固有的隐私风险。该框架将航拍图像编码并与目标地面视角的随机噪声相结合,然后通过3D注意力处理以生成逼真的图像。
想要成为计算机高手19 天前
机器人·具身智能·vla·robotwin
RoboTwin--CVPR2025--港大--2025.4.17--开源Robotwin 2.0 是很好的工作,在社区中的反响非常好,所以来看看可能是RoboTwin2.0的前身的这篇文章。 项目页:RoboTwin2.0 论文页 github
大唐荣华22 天前
人工智能·分类·机器人·具身智能
视觉语言模型(VLA)分类方法体系视觉语言模型(Vision-Language Models, VLA)的分类方法可从功能设计、结构特性、训练范式和应用场景四大维度展开。不同分类方法反映了模型的核心设计理念与技术路径,以下为系统化梳理:
计算机sci论文精选22 天前
人工智能·深度学习·机器学习·计算机视觉·机器人·cvpr·具身智能
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了关注gongzhonghao【CVPR顶会精选】1.导读1.1 论文基本信息论文标题:《HOLODECK: Language Guided Generation of 3D Embodied AI Environments》
视觉语言导航23 天前
人工智能·深度学习·无人机·具身智能
哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试UAV-ON 定义了一个开放世界环境中的实例级目标导航(ObjectNav)任务,无人机(UAV)需要根据语义指令导航到目标物体。
夜幕龙25 天前
人工智能·机器人·具身智能
宇树 G1 部署(十)——数据格式转换与 IL 训练在之前几篇笔记中完成了基于 apple vision 的 G1 遥操作,现在需要将数据集转换成 lerobot 格式然后再进行训练部署
Mr.Winter`1 个月前
人工智能·机器人·自动驾驶·ros·ros2·具身智能
运动规划实战案例 | 基于多源流场(Flow Field)的路径规划(附ROS C++/Python实现)在机器人导航、游戏AI或自动驾驶等领域,路径规划的核心挑战在于如何在复杂环境中快速找到从起点到目标的最优路径。传统的单源路径规划算法(如A*)虽能解决单起点问题,但在多起点或多目标场景下,往往需要重复计算或难以平衡全局效率。多源流场(Multi-source Flow Field) 通过构建全局的流动信息场,将多源起点的信息融合到每个网格单元中,可以用于启发式函数设计,或提供梯度场进行轨迹优化。
视觉语言导航1 个月前
人工智能·深度学习·机器人·具身智能
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述作者: Xiaofeng Han, Shunpeng Chen, Zenghuang Fu, Zhe Feng, Lue Fan, Dong An, Changwei Wang, Li Guo, Weiliang Meng, Xiaopeng Zhang, Rongtao Xu, Shibiao Xu
机器觉醒时代1 个月前
人工智能·具身智能·vla模型
具身智能VLA困于“数据泥潭”,人类活动视频数据是否是“破局之钥”?尽管当前的视觉-语言-动作(VLA)模型已展现出显著进展,但其在新场景和与复杂物体交互中的性能会显著下降,在遵循指令方面落后于像LLaVA 这样的大型多模态模型(LMM)。