基于大模型与人工智能体的机械臂对话式交互系统RobotAgent

基于大模型与人工智能体的机械臂对话式交互系统RobotAgent，针对当前机械臂系统存在的检测目标种类有限、指令理解不充分与知识交互不准确等问题，研制了一种基于大模型与多智能体协作的机械臂智能交互方法。采用全Python语言，以B/S模式，通过前端与后端集成开发，采用开放的、模块化、多层架构的设计思想。系统通过构建主智能体、机械臂动作规划智能体与基于知识库的问答智能体，协同完成自然语言指令解析与任务流程自动生成。在动作控制方面，通过函数接口与提示词工程，引导大模型输出可执行操作指令；在知识交互方面，结合检索增强生成机制构建系统知识库，提高问答准确性与专业性。系统集成大语言模型、抓取检测算法与缺陷检测算法，能够实现自然语言驱动的零样本任务操作。测试实验表明，该方法在交互智能性、任务泛化与扩展性方面表现出良好的应用潜力电19946089034。

1. 机械臂视觉抓取和检测系统

机械臂视觉抓取与检测系统（Robotic Visual Grasping and Detecting System, RVGDS）是一种融合机械臂控制、计算机视觉与大语言模型技术的智能制造解决方案。该系统针对制造业在自动化抓取、目标检测、零部件装配、产品质量检验以及人机交互等核心环节中存在的效率瓶颈、精度不足与柔性欠缺等问题，致力于实现高效、高精度与智能化的作业流程。机械臂视觉抓取与检测系统集成了高性能六轴机械臂、精密视觉传感器以及基于深度学习的感知与决策算法，具备多项关键能力：能够在复杂环境中实时感知和识别多种形状、尺寸与材质的目标对象；精确估计抓取位姿，完成稳定、可靠的操作执行；支持动态任务调度与自主流程管理，适应多变的生产需求；具备模型微调与持续优化机制，提升在多任务、多场景下的适应能力；提供可视化人机界面与交互反馈机制，增强系统可用性与操作体验。凭借良好的模块化设计和系统扩展能力，机械臂视觉抓取与检测系统可广泛适配于多个工业领域，为智能制造提供稳定可靠的技术支撑。

本系统主要包括五大功能模块，分别是：设备管理模块、数据管理模块、视觉系统模块、控制系统模块和实际场景模块，如下图所示。各功能模块的划分基于系统在实际应用过程中的核心需求，形成了从底层设备到高层应用的完整功能链条。设备管理模块涵盖机械臂与相机的统一管理，包含手眼标定与相机标定等关键操作，保障系统感知与执行硬件的协同与精度。数据管理模块负责对数据集、算法模型和训练流程进行集中管理，是系统持续学习与优化的基础。视觉系统模块集成了抓取检测、目标识别、语义分割与点云处理等核心视觉功能，既可作为算法测试平台，也适用于典型视觉任务的快速部署。控制系统模块则聚焦于机械臂的控制与运动规划，实现对执行层面的精确调度与路径优化。

最后，实际场景应用模块整合视觉抓取、视觉检测与智能交互三大功能，重点验证系统在真实工业环境下的落地能力和任务适应性，为从实验平台向生产应用的转化提供支撑。

系统功能模块

如下图所示，本系统的整体功能通过前端导航栏中的五大栏目进行统一管理与操作，分别为"设备管理""数据管理""视觉系统""控制系统"以及"实际场景"，涵盖了从设备连接、数据流转、视觉任务执行到抓取控制的全流程功能。然而，从系统核心能力角度出发，系统功能的主要价值体现在三大关键模块中：视觉抓取模块、视觉检测模块与智能交互模块。这三大模块构成了系统在感知、执行与交互三个层次的功能支撑。

系统首页

视觉抓取模块：该模块集成深度视觉传感器与先进的图像识别与抓取位姿估计算法，能够在复杂环境下高效识别多类型物体，并精确预测抓取点。系统结合平面抓取检测与机械臂运动控制，实现对物体的稳健抓取操作。该模块可以支撑自动装配、物料搬运等任务场景，是实现工业自动化作业的关键技术核心。

视觉检测模块：该模块主要承担工业场景中产品缺陷的智能检测任务，利用基于深度学习的图像处理模型，对产品表面或结构中的划痕、裂纹、凹陷等缺陷进行实时识别与定位。通过借助机械臂灵活的工作空间实施多维度或是大范围的检测，具备良好的检测泛化能力和较高的精度，可广泛应用于产品质检等应用。

智能交互模块：为提升系统的可操作性与决策灵活性，本模块引入大语言模型与多智能体交互机制，构建自然语言控制接口。用户可通过语言指令实现任务配置、参数调整及状态查询，系统同时提供策略推荐与结果解释功能，形成以"人-机-环境"协同为核心的人机交互体系，显著降低使用门槛，提升工业智能系统的适应性和扩展性。

综上，三大模块相辅相成，充分体现了本系统在智能制造场景下的应用潜力与技术优势。

相机设置界面

机械臂连接界面

视觉抓取界面

缺陷检测参数配置界面

缺陷检测流程配置界面

视觉检测界面

2. 机械臂视觉抓取和检测系统实验环境

搭建完整的机械臂视觉抓取与检测实验平台，具体结构如下图所示。该实验平台由三个核心模块构成，分别为执行模块、视觉感知模块以及上位机控制模块。

视觉感知模块采用安装在机械臂末端的RGB-D深度相机，实现目标环境的三维信息获取与多模态感知。该模块不仅支持静态图像采集，还具备在机械臂移动过程中的动态感知能力，为目标识别、抓取检测与缺陷检测提供关键视觉数据支撑。

上位机模块以高性能PC为核心，承担系统的指令解析、算法运行、任务调度与人机交互功能。所有深度学习模型、任务规划逻辑及大语言模型推理过程均在此模块完成，并通过通信接口与机械臂控制器及视觉模块进行实时联动。

机械臂视觉抓取和检测系统实验平台

3. 基于大模型和多智能体的机械臂智能交互系统

在传统的机械臂人机交互模式中，完成视觉识别程序后，若需机械臂执行特定任务，通常必须手动编写相应的动作逻辑程序。每当作业内容发生变更时，就需要重新设计并编写一整套新的任务流程。这种方式不仅开发成本高、灵活性差，也限制了系统的可扩展性。为突破上述瓶颈，提出一种基于智能体的机械臂智能交互方案，旨在实现更自然、高效的人机协作。该方案的核心思想是：用户仅需以自然语言向机械臂下达高层次的动作指令，例如"查找并抓取指定物料"或"移动到特定位置"等，系统便可自动完成指令解析与动作执行。此外，智能体还应具备顾问功能，能够基于内置知识库，回答用户关于系统操作及机械臂使用的相关问题，从而提升用户体验与系统可用性。

所设计的智能交互系统为层级协作的多智能体系统，采用集中规划，分散执行的规划模式。其包含三个具备分工协作能力的智能体，分别为：主智能体：负责整体交互流程的协调，接收用户请求，并根据任务类型调用相应的子智能体进行处理；机械臂动作规划智能体：负责将用户的自然语言动作指令转换为机械臂可执行的动作流程，基于预定义的基础动作单元完成指令的自动编排；知识问答智能体：面向用户提供系统使用帮助，解答与机械臂相关的基础知识，提升用户对系统的理解和掌握程度。基于该多智能体架构的智能交互模型如下图所示。

多智能体交互

4. 机械臂动作规划智能体

机械臂动作规划智能体主要由以下几个关键组成部分构成：

（1）指令输入模块：用户通过自然语言向系统输入所需机械臂执行的动作指令，该指令作为整个任务流程的起点。

（2）函数设计模块：该模块负责封装机械臂执行的各类基础动作API（如移动、夹取、放置等），以及与视觉检测算法相关的调用函数。其核心在于规范函数参数数量、格式与调用逻辑。

（3）智能体逻辑模块：该模块是机械臂动作规划智能体的核心部分，主要职责是理解用户输入的自然语言指令，提取指令中蕴含的任务意图，并基于预定义的函数接口，规划出一套有序的函数调用序列，即生成对应的动作函数列表。该模块的设计依托于大语言模型的强大理解与推理能力，结合提示词工程与函数调用机制实现任务转译与指令规划。

（4）动作流程生成模块：在智能体完成动作规划后，该模块将生成的函数列表进一步整合为可供机械臂实际执行的完整动作流程。每一个基础动作单元均对应具体的控制指令，确保最终执行逻辑的合理性与可操作性。

本系统中，机械臂动作规划智能体基于GPT-4 Turbo系列中性能最强的版本------GPT-4-0125-preview进行构建。该模型支持高达128k tokens的超长上下文处理能力，具备优异的自然语言理解与生成能力、出色的代码推理性能以及较强的稳定性，能够胜任复杂任务规划与大规模应用场景。因此，该版本被选作本研究中机械臂动作规划智能体的核心引擎，以充分发挥其在高复杂度指令解析与任务规划中的优势。机械臂智能规划智能体的工作模式如下图所示。

机械臂动作规划智能体

5. 大模型驱动的智能交互模块

在机械臂智能交互模块中，用户通过一个集成式的文本聊天框与系统进行交互，完成从信息查询到操作指令下达的全过程。该对话框不仅支持自然语言输入，还具备语义理解与任务调度功能，使用户能够以简单直观的方式与系统进行沟通。例如，用户可以输入"介绍一下系统功能"来获取系统使用说明，也可以发送"抓取工作台上的螺母"这样的操作指令，系统会基于语言解析结果自动完成任务规划。

该模块由大语言模型驱动，结合多智能体架构，对用户输入的指令进行语义解析、任务拆解与流程生成。系统根据已定义的动作单元（如移动、识别、抓取、检测等）将复杂任务自动转化为可执行的操作序列，并通过聊天框返回详细的执行方案或响应内容。

为保证交互的安全性与准确性，系统在生成动作流程后会以自然语言形式通过聊天框提示用户进行确认，用户确认后任务才会被实际执行。这一确认机制有效避免了指令误解或操作失误，提高了系统运行的稳定性和可靠性。交互界面设计简洁，仅保留了聊天框这一主要输入输出通道，得益于底层智能体的语义理解与逻辑推理能力，系统可支持多轮对话、任务跟进、状态反馈等功能。智能交互界面如下图所示。

智能交互模块采用阿里巴巴的Ant Design X框架进行设计，如下图所示，用户可通过前端对话框输入自然语言指令，指令信息将由前端发送至后端部署的大语言模型进行处理。后端接收到模型的响应后，再将结果返回至前端界面，实现用户与智能体之间的可视化交互过程。该设计不仅提升了系统的交互友好性与可用性，也为指令的解析与执行提供了的接口支撑。

智能交互模块界面

具体对话示例

6. 机械臂动作规划实验验证

在面向机械臂视觉抓取与检测任务的智能交互模块中，大语言模型驱动的智能体在任务规划与指令生成中发挥着核心作用。该模块支持人机间以自然语言为介质的高层语义交互，显著降低了对专业控制知识的依赖，提升了机械臂系统的智能化水平与应用便捷性。

具体而言，用户可以通过自然语言直接描述希望机械臂执行的具体动作指令，智能体将根据语义理解结果，自动映射至相应的控制逻辑与函数调用，并生成结构化的动作执行流程，如下图所示。此过程中，大语言模型不仅负责解析指令内容，还需识别出任务所涉及的动作基本单元，并完成语义到控制指令之间的映射。

智能体通过对话完成动作规划实例一

智能体亦支持目标导向式的交互模式，即用户无需明确指定机械臂的具体动作序列，而仅需表述所期望达到的任务目标。此时，智能体将综合上下文语义与先验知识，进行任务规划、路径推理与动作生成，构建出最优的任务执行策略，如下图所示。该能力体现了基于大语言模型的智能体系统在高层意图理解与复杂任务自动规划方面的显著优势。

用户与智能体通过对话完成动作规划实例二

此外，系统允许用户指定视觉检测算法库中的特定模型，智能体能够基于自然语言指令准确解析用户意图，进而自动完成从函数调用到动作规划的全过程。具体实现如下图所示。

用户指定模型

7. 基于知识库的问答实验验证

基于大语言模型驱动的智能体系统具备强大的知识理解与问答能力，能够结合外部知识库对用户提出的问题进行准确、上下文相关的响应，从而有效避免答非所问、语义偏移等问题，显著提升人机交互的准确性与可用性。

为增强智能体在机械臂视觉抓取与检测任务中的专业响应能力，将系统使用说明文档、关键功能模块介绍以及机械臂操作相关的基础知识进行了统一整合，构建了面向特定任务域的结构化知识库。

在用户交互过程中，智能体能够根据用户提出的问题，实时检索并调用与之语义相关的知识片段，并结合语言模型的生成能力，给出符合上下文语义、具有逻辑结构的回答。如下图所示，智能体能够准确回答关于机械臂相关的基础性问题；而下图展示了智能体在回答与机械臂视觉抓取及检测系统具体功能、使用方式等相关问题时的能力。

智能体回答用户关于机械臂基础知识的问题示例

智能体回答用户系统相关问题示例一

智能体回答用户系统相关问题示例二

8. 智能体控制机械臂运行实验验证

在机械臂视觉抓取与检测系统中，智能交互模块的核心功能之一，即体现智能人机交互本质的关键能力，是允许用户通过自然语言交互的方式，直接操控机械臂完成指定任务。该机制极大地降低了对传统复杂编程操作的依赖，使非专业用户亦能高效参与到机械臂的控制与管理流程中。

在实际交互过程中，用户可通过对话的形式向智能体明确表达希望机械臂完成的操作目标，智能体则会基于目标任务进行自动化动作规划，并将其转化为标准化、结构化的控制序列（数组形式），以流程化的方式呈现操作步骤。如下图所示，系统会将智能体生成的动作执行流程清晰展示于用户界面，供用户进行审阅与确认。此设计体现了一种"人机共决策"（human-in-the-loop）的交互范式，显著增强了系统操作的安全性与可靠性。

随后，用户只需对生成的动作数组进行确认并提交给智能体，系统即可依据该动作流程控制机械臂完成相应操作，如下图所示。通过这种方式，智能体在充分理解用户意图的基础上完成从自然语言指令到机械臂底层控制命令的映射，同时保留人工确认环节，以规避智能体潜在的推理误差所带来的误操作风险，从而有效降低机械臂损坏及任务失败的概率。智能体驱动下的机械臂执行动作流程如下图所示。下图展示了机械臂移动至笔的位置并抓住笔，展示了机械臂抓取笔运动至本子处，展示了机械臂到达目标位置。

智能体根据用户动作生成执行流程

智能体根据用户给出的运行流程控制机械臂运行

机械臂移动至笔的位置并抓住笔

机械臂往本子所在的位置移动

机械臂将笔移动至本子的位置并释放夹爪