一、 行业背景
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。这些大模型具有海量的参数和强大的语言理解、知识表示能力,能够为机器人的行为决策提供更丰富的信息和更智能的指导。然而,单纯的大模型在面对复杂多变的现实物理环境时仍存在局限性,因为机器人需要准确感知周围环境的三维结构、物体属性和空间关系。
这正是 3D 视觉技术发挥重要作用的地方。3D 视觉为机器人带来了前所未有的感知能力,它能够精确地获取环境的深度信息,构建出三维空间模型。与传统的 2D 视觉相比,3D 视觉可以让机器人更准确地识别物体的形状、位置和姿态,无论是在室内环境中识别家具的布局,还是在工业场景中抓取复杂形状的工件,3D 视觉都提供了关键的感知支持。
高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台,使他们能够深入理解通用具身智能的原理和应用。这不仅有助于培养学生在人工智能和机器人领域的专业技能,还能激发他们的创新思维,为未来的科研和产业发展储备人才,满足社会对具身智能相关技术日益增长的需求。
二、总体架构介绍
主要模块如下:
1、多模态感知层
a.包括语音识别模块、视觉感知模块、以及触觉传感模块。
b. 语音识别:通过LLM内置的语音识别工具,如Whisper或开源的AppBuilder SDK,将语音指令转化为文字,并利用自然语言处理技术进一步解析指令。
c. 视觉感知:采用3D深度相机(Orbbec Gemini 335L和Femto Bolt iToF),用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。
d.触觉传感:在机械臂末端安装力矩传感器,检测机械臂与物体接触时的力反馈,确保安全抓取并提升执行精度。
2、多模态理解与决策层
e.使用大语言模型(如Yi-Large、GPT-4V、CogVLM2)处理自然语言指令,解析指令意图并生成相应的执行任务。
f.结合视觉和语音信息,构建多模态融合模型,实现对复杂指令的精准理解,支持类似"把绿色积木放到红色方块上"这样的复杂命令。
g.多模态语义融合:将语音、视觉信息和触觉数据汇总,通过LLM分析,输出物体的位置坐标、目标坐标,并转换为机械臂的操作指令。
3、行动执行层
h.执行层包括任务规划模块、运动控制模块和机械臂操作模块。
i.任务规划模块:利用逆运动学解算模块将物体坐标转化为电机的转动角度。根据大模型生成的操作步骤进行任务分解,并发送给机械臂执行。
j.运动控制模块:依托高精度六自由度机械臂(睿尔曼 RM65-B),机械臂能够根据指令进行精确运动和抓取。控制算法支持拖动示教、碰撞即停等功能,保障操作的安全性和灵活性。
k.实时反馈与修正:借助触觉传感器和视觉实时反馈,调整机械臂的运动轨迹和抓取力度,以确保任务的高精度和稳定性。
4、学习反馈层
l.利用多模态学习框架(如深度强化学习DRL)实时优化执行路径和抓取策略,使系统在执行过程中能够自主学习和优化。
m.通过自动化的错误反馈机制,收集任务执行过程中产生的错误信息和成功经验,利用强化学习算法在仿真环境中反复训练,提升系统的决策能力和任务执行成功率。
n.将实训过程中的各项数据进行记录,提供给参与实训的本科生和研究生进行分析和复盘,以便提升学生们对学习反馈层的理解。
三、技术方案实现概览
1、语音与视觉协同处理:
语音指令通过LLM解析为动作指令,并通过视觉感知模块定位目标物体。视觉模块通过3D相机构建环境的三维模型,并实时跟踪物体位置。语音和视觉数据通过多模态大模型进行融合,以实现指令的准确传达和物体的精确定位。
2、路径规划与逆运动学求解:
通过多模态输入的坐标信息,路径规划模块利用逆运动学算法生成机械臂的关节角度路径。该过程不仅考虑目标位置,还要确保路径的碰撞避免及效率优化。
3、多传感器融合技术:
通过深度学习算法,将3D视觉数据与触觉反馈实时融合,能够显著提升机械臂的抓取和放置精度。这种方法利用视觉传感器捕获物体的颜色和纹理信息,同时通过触觉传感器获取物体表面的接触点位置和方向。在此基础上,算法能够实时修正机械臂的运动路径,优化避障和目标捕捉能力,实现精确操作。
4、强化学习的训练与优化:
在仿真环境中,我们可以通过强化学习技术对机械臂的抓取策略和路径规划算法进行预训练和优化。这种方法可以显著提高机械臂在实际操作中的精度和稳定性,同时降低失败率。通过仿真训练,我们可以模拟不同的环境和障碍物设置,让机械臂在虚拟环境中学习如何有效地避开障碍并准确抓取目标。这样,当机械臂在现实世界中执行任务时,它已经具备了一定的经验和策略,能够更加稳定和精确地完成抓取和放置操作。
日前,该"具身智能高校实训解决方案-从AI大模型+机器人到通用具身智能"基于华为技术有限公司AI框架昇思MindSpore,完成并通过昇腾相互兼容性技术认证。
四、教学实训与科研应用场景
1、任务分解与流程执行:
如"沏茶"任务可以分解为多个子任务:取杯、取茶、注水等。每个子任务的执行路径和动作参数通过多模态大模型生成和优化。学生可以深入理解自然语言指令到实际执行动作的整个流程。
2、多模态数据的融合与处理:
学生将有机会使用语音、视觉和触觉等多模态数据进行分析和训练,深入理解多模态数据融合的优势及其在具身智能中的应用。
3、自主学习和策略优化:
通过强化学习框架的应用,学生可以研究如何利用深度学习进行策略优化,提升机械臂在动态环境中的适应能力。
4、前沿技术研究:
结合多模态大模型与机器人控制技术,为高校在机器人领域提供前沿研究的支撑。学生可在视觉-语言-动作模型、任务规划等领域探索新的研究方法,进一步推动具身智能的技术进步。
五、实训方案优势
1、真实场景模拟:
通过3D视觉和触觉传感实现环境感知和任务执行,学生可以体验从仿真到真实场景的任务转移过程,提升其实践操作能力。
2、创新性与前沿性:
系统整合了当前最前沿的大语言模型、多模态融合、深度学习和3D视觉等技术,符合当前具身智能的最新发展方向。
3、高度模块化与灵活扩展:
硬件和软件模块高度集成,可根据实际需求更换3D相机、传感器及大模型等,使平台具有高度的扩展性。
六、面向专业
本实训解决方案面向相关专业的本科、高职和研究生。主要面向的专业包括:
1.自动化类:自动化、轨道交通信号与控制、机器人工程、智能装备与系统、工业智能、智能工程与创意设计等;
2.计算机类:计算机科学与技术、软件工程、网络工程、物联网工程、智能科学与技术、空间信息与数字技术、电子与计算机工程、数据科学与大数据技术、电影制作、服务科学与工程、虚拟现实技术等;
3.电气类:电气工程及其自动化、电气工程与智能控制、电动载运工程、电机电器智能化等;
4.电子信息类:电子信息工程、通信工程、微电子科学与工程、光电信息科学与工程、信息工程、集成电路设计与集成系统、医学信息工程、电磁场与无线技术、电子信息科学与技术、应用电子技术教育、人工智能、智能测控工程和智能视觉工程等;
5.机械类:机械工程、机械设计制造及其自动化、机械电子工程、过程装备与控制工程、车辆工程、微机电系统工程、机电技术教育、智能制造工程、智能车辆工程、仿生科学与工程、新能源汽车工程、智能交互设计、工程和农林智能装备工程等;
6.交通运输类:交通运输、交通工程、轮机工程、飞行技术、交通设备与控制工程、船舶电子电气工程、轨道交通电气与控制、智慧交通和智能运输工程等;
7.航空航天类:航空航天工程、飞行器设计与工程、飞行器制造工程、飞行器动力工程、飞行器适航技术、飞行器控制与信息工程、无人驾驶航空器系统工程、智能飞行器技术、空天智能电推进技术等;
8.兵器类:武器系统与工程、武器发射工程、探测制导与控制技术、信息对抗技术和智能无人系统技术等;
9.其他专业:农业机械化及其自动化、农业电气化、农业智能装备工程、智慧建筑与建造、公安视听技术、未来机器人、交叉工程、智能医学工程、智能影像工程、大数据管理与应用、物流工程、测控技术与仪器、智能感知工程、海洋机器人、智慧海洋技术和智能海洋装备等;
七、产品清单
|----------------------------|-----------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 项目/产品 | 建议配置 | 介绍 |
| 奥比中光 Gemini 335L 双目结构光3D相机 | 按实训学生人数,每2人或4人配置一台 | 全天候视野:室内外通用设计,不惧户外强光,可应对复杂场景挑战。 精准感知:采用奥比中光最新自研先进深度引擎芯片 MX6800,独特的主动双目合成成像系统,能稳定输出高质量深度数据,准确感知物体。 多传感器集成:Depth、IR、RGB、IMU 采用统一的硬件时间戳。 高帧率:支持最高 60fps 的帧率。 防尘防水:防护等级为 IP65。 配套 SDK:助力便捷开发,多种模式可选。 小巧机身:配备 95mm 基线,机身小巧,为用户提供更多自由空间。 |
| 奥比中光 Femto Bolt iToF 3D相机 | 按实训学生人数,每2人或4人配置一台 | 与微软联合打造,是微软官方推荐的 Azure Kinect DK 替代选择,采用了微软最新的先进 ToF 传感技术,拥有与微软 Azure Kinect DK 深度相机完全一致的工作模式和性能表现。 提供多种支持:为了帮助 Azure Kinect DK 原有开发者更好地切换到 Femto Bolt 相机,提供与 Azure Kinect Sensor SDK API 接口兼容的 Orbbec SDK K4A Wrapper、可直接接入 Azure Kinect body tracking 算法的 Demo 以及快速便捷将原有应用中的 Azure Kinect DK 切换至Femto Bolt的指导文档;同时也提供了 Orbbec SDK,帮助用户更好兼容 Astra、Gemini 系列相机,轻松完成应用开发。 |
| 六自由度超轻量仿人机械臂 产品型号:RM65-B | 按实训学生人数,每2人或4人配置一台 | 超轻量仿人机械臂:在5Kg负载的情况下,机械臂(内部集成控制器)自重仅7.2Kg,拥有高达1:1.44的超高负载自重比,整臂最大直径11.4cm,类人手臂大小,综合功耗≤100W,最大功耗≤100W同时具备丰富的末端和底座控制器接口,满足多行业应用扩展需求。先进的控制算法使得机器人具备拖动示教、碰撞即停等传统协作机器人功能。机械臂强大的扩展能力和无线通信功能,能够通过机械臂自身控制器实现对移动底盘和末端执行器的控制,方便与升降导轨和移动底盘进行集成。 |
| 大模型等相关算法和实训环境 | 提供包括并不限于左侧的算法API、SDK及相应的Tokens额度; | 不限于以下开发环境和算法模型: 开发环境:树莓派4B、Ubuntu 20.04等; 语音识别:AppBuilder-SDK短语音识别(极速版)等; 语音合成:AppBuilder-SDK短文本在线合成(PaddleSpeech-TTS)等; 大语言模型:Yi-Large、ERNIE、Qwen等; 多模态视觉语言大模型:Yi-Vision、Qwen-VL、CogVLM2、InternVL、Grounding DINO等; 交付物 技术资源包:不少于2个大语言模型和2个多模态模型的Tokens的3年服务包,SDK API使用说明文档、3D视觉技术教程。 源代码与模型文件:交付DEMO工程源代码和模型文件。 不少于1个大语言模型和1个多模态模型的开源大模型部署指南。 实践项目与评估:机器人实训实验全流程示例DEMO工程源代码,示例模型文件、代码文件及使用说明文档。 交付形式 电子文档:所有代码、模型相关的材料、技术指南和使用说明均以PDF、word、PPT等通用格式提供。部分提供在线访问权限,确保学生可以随时查阅最新资料。 |
| AI实训项目课程 | 8个企业级AI具身智能实训项目课程和2个大模型领域的AI课程 | 企业级AI具身智能实训项目课程(每个实训项目课程18课时): 大模型与多模态模型基础操作与应用 3D视觉与物体识别技术 自然语言处理与人机交互技术 视觉-语言-动作融合模型实验 协作机器人控制技术 机器人语义理解与任务调度 3D场景语义重建与交互 机器人应用开发与项目实践 AI课程(每个课程64课时,其中32课时理论课和32课时案例实践课): 大语言模型方向课程(可选):《大语言模型原理及应用实践》; 多模态大模型方向课程:《AIGC应⽤开发实践》。 交付物 课程设计与实训材料:每个课程一套详细的课程大纲、教案、实训指导书和代码文档,真实具身智能应用案例研究。每个课程包含 2课时的导学视频。 交付形式 所有课程材料、技术指南和实验说明均以PDF、word、PPT等通用格式提供,部分提供在线访问权限,确保学生可以随时查阅最新资料。 |
| 师资培训 | 3课时 | 具身智能与3D视觉技术的融合应用 培训课程大纲及体系架构详解 机器人抓取任务实战演示 实训流程及操作指南 创新实践项目的探索与实施 实训过程中的关注点与风险规避 |
| AI训练服务器 | #### 学校自备 | #### 考虑到现在大部分学校已经有自有的本地AI训练服务器或云服务器,同时本项目基本不太涉及算法训练的环节,所以本方案暂未给出AI训练服务器,如有需求可另行给出。 |
相关硬件介绍
该方案集成最新的深度相机Gemini 335L和Femto Bolt,能够基于语音指令,自动执行沏茶、插花、滴香薰、播放音乐等一系列复杂任务。
奥比中光 双目结构光3D相机
产品型号:Gemini 335L
产品特点
全天候视野:室内外通用设计,不惧户外强光,可应对复杂场景挑战。
精准感知:采用奥比中光最新自研先进深度引擎芯片 MX6800,独特的主动双目合成成像系统,能稳定输出高质量深度数据,准确感知物体。
强大功能:
多传感器集成:Depth、IR、RGB、IMU 采用统一的硬件时间戳。
高帧率:支持最高 60fps 的帧率。
防尘防水:防护等级为 IP65。
配套 SDK:助力便捷开发,多种模式可选。
小巧机身:配备 95mm 基线,机身小巧,为用户提供更多自由空间。
|---------|------------------------------------------------------------------|
| 参数名称 | 技术指标 |
| 场景 | 全场景:室内 & 室外 |
| 工作距离 | 0.17 - 10m |
| 分辨率 | Up to: 1280x800@30fps,1280x720@30fps,640x400@60fps,848x480@60fps |
| FOV | 90°×65°×3°(2m 处 1280×800) |
| RG 白平衡 | 81%(R01:2%(1280×800@4m)) |
| 快门类型 | Global Shutter |
| RGB 分辨率 | Up to: 1280×800@60fps,1280x720@60fps |
| RGB FOV | 94°×68°×3° |
| 输出格式 | MPEG, YUYV |
| 光距模块 | 0 - 0.4m |
| IMU | 支持 |
| 多机同步 | 支持 |
| 相机接口 | USB3.0 Type - C |
| 工作温度 | -10°C - 50°C |
| 结构尺寸 | #### 124mmx29mmx27mm |
奥比中光 iTOF深度相机
产品型号:Femto Bolt i
产品特点
与微软联合打造:与微软联合打造,是微软官方推荐的 Azure Kinect DK 替代选择,采用了微软最新的先进 ToF 传感技术,拥有与微软 Azure Kinect DK 深度相机完全一致的工作模式和性能表现。
提供多种支持:为了帮助 Azure Kinect DK 原有开发者更好地切换到 Femto Bolt 相机,提供与 Azure Kinect Sensor SDK API 接口兼容的 Orbbec SDK K4A Wrapper、可直接接入 Azure Kinect body tracking 算法的 Demo 以及快速便捷将原有应用中的 Azure Kinect DK 切换至 Femto Bolt 的指导文档;同时也提供了 Orbbec SDK,帮助用户更好兼容 Astra、Gemini 系列相机,轻松完成应用开发。
适用场景广泛:可应用于体感交互、体积视频捕捉等领域。
|--------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 参数名称 | 技术指标 |
| 基本参数 | 适用环境:室内 & 半室外 深度技术:iToF IMU:三轴线加速度 + 三轴角速度 SDK:Orbbec SDK、Orbbec SDK K4A Wrapper 连接方式:1. DC 供电 + Type - C 数据传输;2. Type - C 供电 + Type - C 数据传输 |
| 深度参数 | 深度 FOV:NFoV:H75 ° V65 °;WFoV:H120° V120° 深度分辨率 @帧率:WFoV unbinned:1024 × 1024@5/15fps;WFoV binned:512 × 512@5/15/25/30fps;NFoV unbinned:640 × 576@5/15/25/30fps;NFoV binned:320 × 288@5/15/25/30fps 深度相对精度:0.15%@1m 激光波长:850nm,环境光 2.2 μW/cm2/nm,物体表面反射率:15% 到 95% 相对精度:随机误差标准差≤17mm 绝对精度:典型系统误差 < 11 mm + 0.1% 的距离(无多路径干扰) |
| RGB 参数 | 彩色相机 FoV:H 80 ° V 51°(16:9);H 65 ° V 51°(4:3) 彩色图像分辨率 @帧率、图像格式:16:9 - 3840 x 2160@5/15/25/30fps MJPEG;2560 x 1440@5/15/25/30fps MJPEG;1920 x 1080@5/15/25/30fps MJPEG;1280 x 720@5/15/25/30fps MJPEG、YUY2、NV12;4:3 - 1280 x 960@5/15/25/30fps MJPEG 快门类型:卷帘快门 |
| 电气参数 | 供电方式:DC/Type - C 供电建议:DC 12V 2A;Type - C 5V 3A 功耗:平均功耗 - DC 供电 + Type - C 数据传输:4.7W;Type - C 供电 + Type - C 数据传输:4.3W |
| 物理参数 | 工作温度:10 ℃ - 25℃ 尺寸:115.30 × 64.95 × 40.26mm ± 0.3mm 整机重量:348g ± 3g 数据接口:USB 3.0 Type - C 母座;8 Pin - Connector 母座 安装方式:1x 1/4 - 20 UNC 螺孔;4x M2.5 螺孔 |
| 系统要求 | #### 适用操作系统:Windows 10、Linux Ubuntu 18.04 (x64) #### 主机要求:第七代 Intel® CoreTM i5 处理器(四核 2.4 GHz 或更快);4 GB 内存;支持 OpenGL 4.4 或 DirectX 11.0 的图形驱动程序 |
睿尔曼 六自由度超轻量仿人机械臂 RM65-B
产品特点
超轻量仿人机械臂:在5Kg负载的情况下,机械臂(内部集成控制器)自重仅7.2Kg,拥有高达1:1.44的超高负载自重比,整臂最大直径11.4cm,类人手臂大小,综合功耗≤100W,最大功耗≤100W同时具备丰富的末端和底座控制器接口,满足多行业应用扩展需求。先进的控制算法使得机器人具备拖动示教、碰撞即停等传统协作机器人功能。机械臂强大的扩展能力和无线通信功能,能够通过机械臂自身控制器实现对移动底盘和末端执行器的控制,方便与升降导轨和移动底盘进行集成。
可配套搭载不同类型的复合机器人:
具有以下特点:
1)超高负载自重比
超轻便机身,机械臂(含控制器)自重仅7.2Kg,有效负载达5Kg,拥有1:1.44的负载自重比,有效工作半径最高达 610mm。
2)灵活部署
超小体积,机械臂最大直径11.4cm,仿人手臂大小,降低了安装空间要求,更方便灵活。
3)超低功耗
直流24V供电,可适用于移动电源,在普通工况下功率≤220W,可应用于多种场景。
4)集成控制器
无传统控制柜,将控制器与机械臂完美融为一体。
5)超高兼容性
末端具备通用接口,灵活扩展,即插即用,一体化机械臂结 构且自带丰富接口,满足多行业应用需求扩展。
6)系统开放
开放的API函数库,支持C/C++编程语言,支持Windows/ Linux/ROS机器人操作系统及多种通讯协议。
7)安全灵活
灵敏的拖拽编程,可完整复现拖动轨迹;碰撞达到力矩上限,机器人及时停止,避免人或设备受到伤害。
8)无线便捷互联
智能终端可通过有线和无线连接控制机械臂,任意切换,方便快捷,摆脱控制线缆束缚。
9)无线便捷互联
一体化模块化设计,拆装更便捷,维护成本低,效率更高。
技术参数
|----------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 名称 | 规格说明 |
| 超轻量仿人机械臂 | #### 1、机械臂本体: #### 1)最大臂展:610mm #### 2)额定负载:5kg #### 3)重复定位精度:±0.05mm #### 4)净重:7.2kg #### 5)安装方式:台面 #### 6)工作温度:0℃~45℃ #### 7)工作湿度:10%~80%,且无凝露 #### 8)控制轴数:6轴 #### 9)输入电源:DC24V #### 10)输出电源:24V DC,1A #### 11)支持电机功率:所有轴:≤220W #### 12)整机尺寸:110×110×850(mm) #### 13)通信接口:Ethernet/WIFI/RS485/蓝牙/USB串口 #### 14)I/O接口: #### 数字输出:4路 #### 数字输入:3路 #### 15)示教方法:平板/手机 #### 16)环境:温度:0℃~45℃ #### 17)湿度:≤95%,且无凝露 #### 18)维护:诊断软件工具;断电零位保存功能;关节异常状态保护 |
大模型等相关算法和实训环境
奥比中光2.0版大模型机械臂结合多模态大模型技术(语音、文本、视觉)与机械臂控制技术,可以生成空间语义信息,帮助机械臂准确识别、理解生活中的常见物体并执行相应动作,可识别物体包括日常用品、食品和工业零件等。
开发环境:树莓派4B、Ubuntu 20.04等;
语音识别:AppBuilder-SDK短语音识别(极速版)等;
语音合成:AppBuilder-SDK短文本在线合成(PaddleSpeech-TTS)等;
大语言模型:Yi-Large、ERNIE、Qwen等;
多模态视觉语言大模型:Yi-Vision、Qwen-VL、CogVLM2、InternVL、Grounding DINO等;
机器人沏茶倒茶实训案例
以最具挑战性的沏茶任务为例:
通过语音输入,大模型进行语义理解,转化成系统需要执行指令集
两台3D深度相机分别从不同角度拍摄场景,并进行自主学习;
机械臂根据大模型所生成的指令集开始执行对应的动作
机械臂在深度相机支持下实现茶具定位、动作引导,最终完成置茶、冲泡、倒茶、奉茶全流程。
整体算法系统的难点在于流程长、步骤多,需要保证动作执行的准确性和多步骤之间的逻辑合理性。我方研发团队借助高精度Gemini 335L和Femto Bolt相机实现目标抓取位姿的精确定位,结合大模型的理解能力,经过长期算法优化与仿真环境调试,最终实现对沏茶等复杂任务的理解、规划与自动执行。
八、AI实训课程
企业级AI实训项目完全从商业化出发,全部都是真实投入市场中的项目。根据不同行业对于人才的需求,对这些真实的项目进行里程碑和任务拆解、教学环节的标准化设置等及教研工作,从商业产品变成培养符合企业实际用人需求的实训项目。AI课程选取了AI不同领域的经典案例,进行标准化的二次开发和任务拆解,从传统的讲解调整为动手实操。
1、AI具身智能实训项目课程
8门企业级AI实训课程,以AI、机器人、大模型、多模态大模型等领域为重点,并结合了具体的硬件设备(如3D相机、机械臂)和相关的技术模块(如语音识别、视觉感知、触觉传感等)。每门课程的内容遵循「多模态输入 -> 感知与理解 -> 行动执行 -> 反馈学习」的逻辑闭环过程,保证学生能够在实际操作中掌握AI与机器人的核心技术,并能够自主研发适合商业化应用的解决方案。
课程一:大模型与多模态模型基础操作与应用
课程目标:掌握大模型和多模态模型的基础原理和操作,学习如何将多模态数据(如语音、文本、视觉)用于机器人的交互应用。
课程内容:
1. 大模型与多模态模型概述
a. 大模型的概念、主要应用领域以及在机器人中的应用
b. 多模态模型的基本构成及其交互方式
c. 多模态模型在智能交互中的关键作用
2.环境搭建与硬件连接
a.奥比中光3D深度相机与睿尔曼机械臂的连接和测试
b.SDK和API调用测试,通过示例程序掌握硬件的基础操作
3.多模态模型实操
a.使用3D相机、麦克风等设备采集多模态数据
b.使用语音、视觉、文本三模态数据进行交互实验
c.利用大模型算法,实现机器人对语音指令的识别与理解
4.基础任务实现:物体识别与抓取
a.基于3D深度相机进行物体的3D重建与识别
b.机械臂的抓取操作,通过算法实现简单物体的识别与分类
5. 课程项目
a.项目1:使用语音指令控制机械臂,实现物体识别并进行抓取
课程二:3D视觉与物体识别技术
课程目标:掌握3D视觉感知技术,应用3D深度相机进行复杂物体的识别和定位。
课程内容:
1.3D视觉感知原理
a.深度相机的工作原理及技术特点
b.3D视觉感知在机器人中的重要性
2.奥比中光深度相机操作
a.Gemini 335L 和 Femto Bolt深度相机的配置与调试
b.实现不同场景下的3D数据采集与实时分析
c.系统集成后的数据融合与处理方法
3.物体识别与抓取实验
a.使用深度相机识别形状复杂的物体(如玻璃和透明物体)
b.结合大模型算法生成空间语义信息,提升物体定位精度
c.3D数据的预处理方法,提升物体定位与抓取的准确性和鲁棒性
4.进阶任务规划与执行
a.使用Femto Bolt相机进行体积视频捕捉和场景重建
b.基于视觉反馈的多步任务规划
5.课程项目
a.项目2:在复杂场景中,使用机械臂识别并抓取不同种类的物体
课程三:自然语言处理与人机交互技术
课程目标:掌握自然语言处理技术,学习如何让机器人基于语音指令执行任务。
课程内容:
1. 自然语言处理基础
a.自然语言理解与生成的基本原理
b.人机对话系统的设计与实现
2.大语言模型的应用
a.结合深度学习模型,提升机器人对语言的理解能力
b.语言数据的收集、标注与模型训练
c.模型评估与调优策略
d.实际应用中的挑战与解决方案
3.语音交互实验
a.设计语音指令并编写指令解析代码
b.测试机械臂在自然语言指令下的动作反应
4.人机对话与任务调度
a.根据语音指令进行任务规划和动作执行
b.多任务处理和优先级调度算法
c.分析并改进语音识别与理解的准确性和鲁棒性
5.课程项目
a.项目3:基于自然语言的复杂任务交互,实现多步任务的语音控制
课程四:视觉-语言-动作融合模型实验
课程目标:探索视觉、语言和动作的多模态融合应用。
课程内容:
1.视觉-语言-动作模型简介
a.Robotic Transformer等多模态模型的原理和应用场景
b.多模态数据的标注与融合算法
2.多模态数据融合实验
a.实现视觉与语言的匹配和动作响应
b.测试机械臂对语言指令的响应与反馈
3.复杂任务规划与视觉引导
a.使用大模型算法生成动作序列,并实现视觉引导
b.调试在不同条件下的任务执行稳定性
4.多模态交互应用开发
a.利用Orbbec SDK,结合3D场景重建实现视觉-语言互动
b.基于场景语义理解调整任务规划
c.多模态数据融合实验
5.课程项目
a.项目4:开发视觉-语言-动作融合模型,实现场景交互
课程五:协作机器人控制技术
课程目标:学习协作机器人的控制算法及应用,提升机械臂的操作精度和安全性。
课程内容:
1.协作机器人概述
a.协作机器人控制算法与应用
b.安全性与灵敏性的控制策略
2.机械臂的控制与调试
a.基于睿尔曼六自由度机械臂的控制接口
b.开发拖动示教、碰撞即停等功能
3.精度与稳定性调优
a.使用反馈控制技术提升动作的准确性
b.实现复杂轨迹规划与误差补偿
c.系统鲁棒性分析与优化
4.机器人控制接口编程
a.使用ROS和C++编程控制机械臂
b.控制机械臂实现复杂的动态交互
5.课程项目
a.项目5:编写程序实现机械臂的高精度抓取与安全避障
课程六:机器人语义理解与任务调度
课程目标:深入理解机器人语义理解技术,实现多任务调度与执行。
课程内容:
1. 语义理解原理
a.大模型的语义理解与生成技术
b.多任务调度与优先级管理
2.多任务调度算法
a.任务优先级算法的设计与优化
b.基于ROS的任务调度
3.复杂任务调度实验
a.根据任务复杂度和资源需求进行任务分配
b.动态任务分配与资源管理
4.语义理解与执行
a.基于自然语言的语义解析实现任务调度
b.利用Femto Bolt相机辅助视觉引导
c.结合多模态信息提升任务执行的准确性
d.语义理解系统在不同语言和环境中的适应性
5.课程项目
a.项目6:基于语义解析的多任务调度系统,完成多个任务
课程七:3D场景语义重建与交互
课程目标:学习3D场景语义重建技术,应用于机器人任务规划。
课程内容:
1.3D场景语义重建原理
a.3DGS机器人自动三维场景语义重建技术
b.场景中的物体定位与语义分割
c.相关的深度学习模型与算法
2.场景建图实验
a.利用深度相机进行3D场景扫描
b.实现透明物体和小型物体的精确识别
3.语义分割与物体识别
a.实现场景中不同物体的语义分割
b.根据语义分割信息生成任务执行方案
4.基于场景的任务规划
a.自动生成机械臂的路径规划和任务执行流程
b.基于物体属性和空间关系的任务调整
5.课程项目
a.项目7:开发场景语义重建与识别应用,提升交互体验
课程八:机器人应用开发与项目实践
课程目标:综合应用前七门课程所学内容,完成一个完整的机器人应用开发项目。
课程内容:
1.项目需求分析与方案设计
a.确定项目需求,分析实现难点与技术路径
b.设计软件架构与硬件部署方案
2.系统开发与调试
a.集成大模型、多模态数据、3D视觉与控制技术
b.实现从场景识别到任务执行的完整流程
3.实验测试与优化
a.进行多次实验测试,调整参数以保证稳定性
b.优化交互体验,确保执行效果
4.项目总结
a.总结项目开发过程中的经验与教训
b.分析项目的成功之处与不足之处
2、AI课程
以下是为CS/AI专业本科生设计的AI课程大纲,包括2门课程,分别是《大语言模型原理及应用实践》和《AIGC应⽤开发实践》。每门课程64课时,理论32课时+实践32课时。
2.1 大语言模型方向课程(可选):《大语言模型原理及应用实践》
理论32课时+实践32课时,10个以上PPT,实验指导书8个。
课程主要围绕大语言模型技术的核心知识点展开,重点介绍背景与基础知识、大语言模型架构、预训练、微调与对齐(P-tuning、Lora、RLHF)、推理与部署、大模型应用技术(RAG、Agent)等部分,并梳理最具代表性的模型,如GPT系列、T5、ChatGLM系列以及基于MOE结构的大语言模型等。
为帮助学生更好地理解和掌握大语言模型技术,能够快速上手相关的科研与工程项目,本课程为每个核心知识点配备有趣的实验案例,并给出详细的步骤讲解。
课程内实验案例包括:
1)法律领域大模型构建:基于中国法律知识数据使用LoRA等技术微调Gemma大模型,实现法律知识问答和法条推理功能,并基于Streamlit框架实现用户交互界面,方便用户与微调后的模型以自然语言进行法律知识问答,以及根据用户的案情描述进行法条推理。案例要求至少包含构建法律知识数据集、数据预处理、Gemma大模型原理介绍、LoRA微调LLM、模型推理、WebUI构建。实验时长4课时。
2)金融领域大模型构建:基于金融数据使用QLoRA等技术微调Llama3大模型,使其具备金融知识问答、解读年报、深度金融分析的能力,能够回答用户提出的金融专业问题,以及对年报信息进行分析,并搭建WebUI界面与用户的交互。案例要求至少包含金融知识数据集构建、数据预处理、Llama3大模型原理介绍、QLoRA技术的使用、模型推理、基于Gradio构建WebUI。实验时长4课时。
3)大模型量化:基于GPTQ、AWQ、llama.cpp等技术对大模型进行量化处理,并测试量化后模型的性能。案例要求至少包含对齐数据准备、GPTQ、AWQ、llama.cpp量化技术的原理介绍、参数配置、量化后模型的推理及性能测试。实验时长4课时。
4)农业领域大模型应用:基于检索增强生成(RAG)技术构建农业知识库,在农业知识库中检索用户输入信息的上下文来优化Prompt,并输入给大模型,实现农业知识问答系统,问答内容包含作物栽培技巧、病虫害防治措施、土壤改良建议。案例要求至少包含农业语料收集与清洗、文档加载、文本分割、Embedding、Faiss向量数据库、向量相似度计算、Rerank、模型部署与推理、WebUI构建。实验时长4课时。
5)医疗领域大模型应用:基于大语言模型(LLM)+ GraphRAG构建医学知识图谱,模型能够根据用户查询信息精准做出回答实现医学知识问答功能;能够根据用户病情描述识别潜在病症与治疗建议实现智能线上问诊功能;能够帮助用户快速阅读医学文献实现医学文献摘要功能。案例要求至少包含医学数据收集与清洗、GraphRAG安装、图索引构建、全局查询、局部查询、大语言模型本地部署(vllm)、Embedding模型部署等知识点。实验时长4课时。
6)工业制造领域Agent构建:利用铸造产品数据集训练CNN分类模型,实现工业铸造产品缺陷识别工具(Tool),并通过大语言模型(LLM)和LangChain中的ReAct框架创建工业铸造产品缺陷识别智能体(Agent),Agent根据用户输入的图片自主进行思考、观察、行动,最终完成铸造产品缺陷识别的任务。案例要求至少包含训练工业铸造产品缺陷识别模型、LLM本地部署、ReAct框架的原理与运行机制、提示模板设计。实验时长4课时。
7)课程大纲包括:课程基本信息、课程教学目标、课程教学内容和要求、课程教学方法、课程考核、本课程与其他课程联系与分工、建议教材及教学参考书七个部分。
2.2 多模态大模型方向课程:《AIGC应⽤开发实践》
理论32课时+实践32课时,20个PPT,实验指导书8个。
课程旨在系统讲解AIGC相关的理论和技术,并配套相关的实验案例,提供包括大模型技术概述、面向理解任务的多模态大模型、面向生成任务的多模态大模型、兼顾理解和生成任务的多模态大模型、知识增强的多模态大模型、大模型的预训练与微调、大模型的评估压缩推理与部署、大模型的安全性、课程总结等课程内容,提供基于CLIP模型的智能广告生成系统、基于VATT模型的视频检索系统、基于Stable Diffusion模型的影视特效生成、基于VL-T5模型的智能教育问答系统等共计8个配套实验。
课程内实验案例包括:
1)包括基于CLIP模型的智能广告生成系统:利用先进的图像与文本匹配技术,实现自动化创作个性化高相关度广告内容,提升营销效率与用户体验。
2)包括基于VATT模型的视频检索系统:该实验融合视觉、音频、文本及时序信息,实现精准高效的视频内容搜索与定位,从而优化视频检索的用户体验。
3)包括基于DDPM模型的高质量图像生成:通过深度学习与强化学习的结合,从而可生成细腻逼真的图像,推动数字艺术与视觉内容创作的新边界。
4)包括基于Stable Diffusion模型的影视特效生成:通过扩散模型的微调,可生成影视特效画面,从而革新视觉效果制作,快速渲染逼真特效,加速影视后期制作,引领影视艺术新潮流。
**5)包括基于VL-T5模型的智能教育问答系统:**融合视觉与自然语言理解技术,可实现精准解答学习疑问,助力个性化教育,提升学习效率。
**6)包括基于ERNIE-ViL模型的智慧医疗系统:**通过深度融合视觉与语言知识,精准辅助医疗决策,提升诊疗效率与质量,引领健康医疗新未来。
**7)包括基于Unified VLP模型的智慧工厂监控系统:**集成视觉与自然语言处理技术,实时监控生产流程,优化资源配置,提升工厂智能化管理水平。
**8)包括基于BLIP-2模型的智能音乐生成系统:**融合多模态学习,自动创作个性化旋律与和声,开启音乐创作新纪元。
2.3 课程配套
1)课程介绍
2)课程大纲
3)PPT课件
《大语言模型原理与应用实践》课程包含十章PPT课件,涉及内容为认识大语言模型、大语言模型基础、大语言模型的主流架构、稀疏结构大模型、大语言模型训练技术、人类对齐、大语言模型推理与部署、检索增强生成技术、智能体、大语言模型评估;
《AIGC应用开发实践课程:多模态大模型应用开发》课程包含二十一章PPT课件,涉及大模型技术概述、大模型的基础知识、多模态大模型概述、CLIP模型原理、VATT模型原理、ALIGN模型原理、基础扩散模型原理、DDPM模型原理、DDIM模型原理、Stable Diffusion模型原理、VL-T5模型原理、Unified VLP模型原理、BLIP-2模型原理、ERNIE-ViL模型原理、大模型的预训练、大模型的微调技术、大模型的评估、大模型的压缩技术、大模型的推理与部署、大模型的安全性、课程总结与未来展望。
4)实验指导书
《大语言模型原理与应用实践》实验指导书包含8个;
《AIGC应用开发实践课程:多模态大模型应用开发》实验指导书包含8个。
5)实验相关资料
《大语言模型原理与应用实践》实验案例提供实验环境和实验指导手册。包含源码、实验目的、实验内容、实验数据、实验知识点、实验时长、实验环境介绍、实验分析、实验过程详解(模型和数据下载、代码构建与分析、实验结果);
《AIGC应用开发实践课程:多模态大模型应用开发》实验案例提供实验环境和实验指导手册。包含源码、实验目的、实验内容、实验数据、实验知识点、实验时长、实验环境介绍、实验分析、实验过程详解(模型和数据下载、代码构建与分析、实验结果)。