AI终端设备的自动化分级

摘要：

AI智体被定义为感知环境、做出决策和采取行动的人工实体。受SAE（汽车工程师学会）自动驾驶6个级别的启发，AI智体也根据效用和强度进行分类，分为以下几个级别： L0------无AI，有工具（有感知）加动作； L1------使用基于规则的人工智能； L2------基于规则的人工智能被基于IL/RL的人工智能取代，并进行额外的推理和决策； L3---基于L2，应用基于LLM的AI而不是基于IL/RL的AI，另外设置记忆和反思； L4------基于L3，促进自主学习和泛化； L5------在L4的基础上，附加个性（情感+性格）和协作行为（多智体）。

0. 引言

众所周知，车辆的自动驾驶，按照SAE进行L0-L5的分级。

那么推广一下，按照目前AI的发展状况，如何对AI终端设备进行自动化分级？

聊天机器人技术的发展出现不同的类别：基于规则的机器人、AI驱动的机器人以及基于LLM的机器人（例如 Microsoft Copilot）。

微软在大多数使用的产品中内置了AI驱动的Copilot------用 GitHub 提高编码效率，用 Microsoft 365 提高工作效率，使用 Bing 和 Edge 重新定义搜索，并通过 Windows 提供跨用户App和 PC 的上下文价值，在任何任务中导航。

OpenAI 提供一种创建用户AI助手的方法，重点关注四个关键组成部分：1）LLM（核心）； 2）解释器代码------改进的计算器（工具）； 3）搜索引擎（知识检索）； 4) 自定义函数（动作）的API调用。

Semantic Kernel 是一个开源 MS SDK，可让用户轻松构建调用用户现有代码的智体。作为一个高度可扩展的 SDK，用户可以将 Semantic Kernel 与 OpenAI、Azure OpenAI、Hugging Face 等模型结合使用。通过将用户现有的 C#、Python 和 Java 代码与这些模型相结合，可以构建回答问题和自动化流程的智体。借助Semantic Kernel，用户可以构建越来越复杂的智体。

1. 聊天机器人

自 2016 年以来，聊天机器人设计领域经历了重大演变 [1]。从 GUI 到AI驱动的聊天界面的转变促使人们重新重视最佳实践和方法。成功的聊天机器人设计现在围绕着创建类人的实时对话，类似于短信或语音交互。

过去，聊天机器人的设计严重依赖基于规则的方法，其中预定义的决策树决定了机器人的响应。然而，像 GPT-4 这样的LLM出现改变了格局。这些先进的模型利用人工智能来理解用户输入并生成类似人类的文本。这一转变彻底改变了聊天机器人的设计，重点是增强对话能力、特定领域的训练以及为用户提供价值。结果是更具吸引力和更有效的用户体验。

由LLM支持的聊天机器人[2]拥有实时生成个性化和上下文相关响应的超能力。它可以寻求客户服务帮助，不仅能得到答案，还能得到量身定制的解决方案，让客户感觉自己像 VIP。

ChatEd 是一种用于教育的 Chatbot 架构[3]（如图所示），它基于检索并与 ChatGPT 等大型语言模型集成。ChatEd 架构的独特之处在于，将存储和查询指导员提供的资源信息检索系统与提供对话支持和常识的 LLM 集成在一起：

上下文特定数据库：第一步是指导员以文档或 URL 的形式提供其来源。每个文档都会被检索并建立索引。这些指导员文档提供特定于当前课程的聊天机器人源上下文。
2）LLM集成：当用户提出问题时，不是将问题直接发送给LLM（LLM将用其广义知识进行响应），而是首先将问题用作数据库的查询以确定类似的索引文档。然后，问题、索引文档和之前的聊天记录将作为提示提供给法LLM。

CataractBot[4] 是一个由LLM支持的专家在环聊天机器人。它通过查询精选的知识库立即回答白内障手术相关问题，并异步提供经过专家验证的答复。 CataractBot 具有多模态支持和多语言功能。

ChatDiet[5] 是一个由LLM驱动的框架，专为个性化营养导向的食物推荐聊天机器人而设计。如图所示，ChatDiet 集成了个人和人口规模的模型，并辅以编排器，以无缝检索和处理相关信息。其结果是根据个人用户偏好动态提供个性化且可解释的食物推荐。

2. GUI交互

自然语言界面和图形用户界面 (GUI) 将人类用户与计算机系统的功能连接起来。自然语言允许人类进行交流，而指点则允许就世界上的具体事物进行交流。与产生和处理自然语言相比，指点需要更少的认知努力。它还减少了混乱的空间。然而，自然语言可以传达有关整个世界的信息：具体的、抽象的、过去的、现在的、未来的和元世界，提供对一切事物的随机访问。

许多种类的信息都适合用图形表示。一种常见的方法是将 GUI 元素编织到聊天对话中。然而，这样做的代价是聊天历史变得庞大，并且聊天历史中 GUI 元素的状态管理也很重要。此外，完全采用聊天模式，失去了向用户提供菜单驱动交互路径的选择，因此他们对应用程序的功能更加一无所知。

用户界面 (UI) 对于人类与数字世界的交互至关重要，有助于有效控制机器、信息导航和完成复杂的任务。为了实现简单、高效、自由的交互，研究人员一直在探索将传统编程语言接口（PLIs）和 GUI 封装成自然语言接口（NLI）的潜力。然而，由于小模型的能力有限，传统的工作主要集中在只需一步就成的任务上。这在很大程度上限制了 NLI 的应用。最近，LLM表现出了强大的推理和规划能力，但它们在复杂环境中多轮交互的潜力仍未得到充分开发。

为了在现实图形环境中将 LLM 作为 NLI 进行评估，如图所示的 GUI 交互平台 Mobile-Env[6]（特别是在移动应用程序上）与以前的环境相比增强了交互灵活性、任务可扩展性和环境适应性。Mobile-Env 上收集了基于 WikiHow 应用程序的 GUI 任务集，形成涵盖一系列 GUI 交互功能的基准。

CogAgent[7] 是一个拥有 180 亿参数的视觉语言模型 (VLM)，专门用于 GUI 理解和导航。通过利用低分辨率和高分辨率图像编码器，CogAgent 支持 1120×1120 分辨率的输入，使其能够识别微小的页面元素和文本。

Comprehensive Cognitive LLM Agent，CoCo-Agent[8]，具有综合环境感知（CEP）和条件动作预测（CAP），可以系统地提高GUI自动化性能。首先，CEP通过不同方面和粒度促进GUI感知，包括视觉通道的屏幕截图和补充详细布局以及文本通道的历史动作。其次，CAP将动作预测分解为子问题：动作类型预测和以动作类型为条件的动作目标。

3. Copilot助理

人工智能助手正在成为社会不可或缺的一部分，用于在个人和机密问题寻求建议或帮助。人工智能助手通常部署在基于云的环境中。这种设置允许可扩展且高效地访问运行这些复杂模型所需的计算资源。与人工智能助手的用户会话通常遵循一个简单的过程：

连接：用户通过浏览器的 Web 应用程序或通过 API（例如，使用第 3 方应用程序）连接到托管在云中的服务器。用户启动或恢复聊天会话（对话）以设置提示的上下文。
提示：用户提交提示（查询或语句），并将其作为单个消息传输到服务器。服务器将提示转发给LLM模型的实例进行处理。
响应生成：LLM 生成对提示的响应，并将响应tokens按顺序实时发送回用户，可视化创建的响应。这种操作方法允许用户实时查看人工智能的响应形式，从而确保动态且引人入胜的对话，从而增强了用户体验。鉴于最先进的LLM因其复杂性而速度缓慢，这一点尤其重要。

LLM催生了各种copilot，帮助用户在职业和个人生活中提高效率和生产力（例如，GitHub Copilot 帮助开发人员通过自然语言交互显着加速软件开发）。

LLM强大的文本创作能力激发了论文写作Copilot的发展。为了协助用户撰写科学图表的学术分析，Copilot应具备三大能力。首先，模型应该能够理解各种类型（图形、表格等）和不同格式（图像或乳胶）的多个图表。其次，图表分析应与前面的文本保持一致，因此要求建模以关联多模态上下文和图表信息。第三，为了更好地契合用户意图，Copilot应该能够与用户交互，这就需要模型可控。

Josh.AI 公司正在超越智能家居领域，在家庭和移动中提供基于LLM的强大 JoshGPT 助手 [9]。除了请求任何歌曲、艺术家、专辑或流派之外，JoshGPT 还使用户能够了解有关喜爱音乐的更多信息。除了在需要时设置完美的烹饪氛围和食物定时器之外，JoshGPT 还提供专业副主厨的帮助。此外，还可以了解历史事实和人物。

SheetCopilot[10] 是一个基于LLM的助手，它采用自然语言任务和控制电子表格来满足要求。提出了一组原子操作作为电子表格软件功能的抽象。此外，针对LLM基于状态机的任务规划框架旨在与电子表格进行稳健的交互。

Data-Copilot[11] 是一种基于LLM的系统，如图所示，一端连接众多数据源，另一端满足不同的人类需求。Data-Copilot 就像经验丰富的专家一样，自动将原始数据转换为最符合用户意图的可视化结果。具体来说，Data-Copilot 自主设计用于数据管理、处理、预测和可视化的多功能接口（工具）。

mPLUG-DocOwl[12] 是一个基于名为 mPLUG-Owl 的多模态 LLM 无 OCR 文档理解的copilot，其中包括预训练的视觉基础模型、视觉抽象器和语言基础模型。具体来说，首先构建一个包含广泛的视觉文本理解任务的指令调整数据集。

mPLUG-PaperOwl[13]是学术论文写作的copilot，从mPLUG-DocOwl扩展而来。通过解析高质量论文的Latex源文件，构建了多模态图表理解数据集M-Paper。将论文中的图表与相关段落对齐，构建专业的图表分析样本进行训练和评估。基于 mPLUG-DocOwl，指令调优是对来自三个任务（多模态图字幕、多模态图分析和大纲推荐）的训练数据的组合进行的。

决策优化CoPilot（DOCP）[14]是一种人工智能工具，旨在帮助任何决策者，通过自然语言交互来掌握业务问题，随后制定并求解相应的优化模型。

4. 网页导航

互联网的第1版有时被称为"静态网络"。它由只读网页组成，总的来说缺乏交互功能。Web 1.0 除了浏览静态页面之外几乎没有提供任何功能。内容生成由少数人负责，而且信息很难找到。

像 YouTube 这样的视频共享网站是 Web 2.0 革命的重要组成部分，它标志着互联网进入动态内容时代。用户现在可以与网页交互、相互通信以及创建内容。对于许多人来说，这个时代的最大标志是社交媒体网络的出现。智能手机紧随其后，即发布的 iPhone 1.0。Web 2.0 可以被视为读/写升级，即今天的互联网。

对于加密货币开发者和爱好者来说，Web 3.0 融合了加密货币核心的技术和概念：去中心化、基于tokens的经济和区块链。Web 3.0 的愿景往往是当今网络世界的更民主版。

近年来人工智能技术的进步为Web 3.0发展中的各种障碍提供了新的、有力的解决方案。这些解决方案包括利用人工智能进行大数据分析、人工智能生成的内容以及对文本和视频等各种形式内容进行检测和分类。

Web 导航是一类序贯决策问题，其中智体按照用户指令与 Web 界面进行交互。自主网络导航的进展受到了依赖通过在线强化学习进行的数十亿次探索性交互以及特定领域模型设计的阻碍，这些模型设计使得很难利用丰富的域外数据进行泛化。

遵循指令的多模态智体 WebGUM[15] 观察网页屏幕截图和 HTML 页面，并输出 Web 导航操作，例如单击和键入。基于视觉语言基础模型，WebGUM 通过在大型演示语料库上联合微调指令调整的语言模型和具有时域和局部感知的视觉编码器来进行训练。

MIND2WEB[16] 是用于开发和评估网络通用智体的数据集，该智体可以遵循语言指令在任何网站上完成复杂的任务。MIND2WEB 为构建通用网络智体提供了 3 个必要的要素：1）不同的域、网站和任务，2）使用真实世界的网站而不是模拟和简化的网站，以及 3）广泛的用户交互模式。利用 MIND2WEB 的数据，利用LLM的力量构建了一个探索性框架 MINDACT。

WebArena[17] 是一个独立的、可自托管的 Web 环境，用于构建自主智体。WebArena 创建了 4 个流行类别的网站，其功能和数据模仿了现实世界的同等内容。为了模仿人类解决问题的方式，WebArena 还嵌入了工具和知识资源作为独立网站。WebArena 引入了将高级现实自然语言命令解释为具体的基于网络交互基准。

WebAgent[18] 是一个 LLM 驱动的智体，如图所示，它从自我经验中学习，按照自然语言指令完成真实网站上的任务。WebAgent 将指令分解为子指令来提前规划，将长 HTML 文档总结为与任务相关的片段，并从这些文档生成 Python 程序对网站进行操作。WebAgent 采用 Flan-U-PaLM模型（用于基础代码生成）和 HTML-T5模型（用于长 HTML 文档的预训练 LLM）进行设计。

5. 软件开发

与 GitHub Copilot 类似的工作提供了一个类似聊天机器人的编程界面，使程序员能够以一系列自然语言表达他们的意图，启动响应代码的生成或修改。这种交互范式的转变从根本上改变了编程体验，弥合了人类意图和代码实现之间的差距，开创了基于自然语言的程序的新时代[19]。

为了帮助GitHub copilot，PwR（Programming with Representations，读作"POWER"）[20]用表征作为用户和人工智能系统之间的共享理解，这有利于对话式编程。一个表征是人工智能系统对一系列话语的理解。

PwR 工具中的表示由三个组件组成（如图所示）：

由一组K-V对组成的知识库(KB)。

机器人的逻辑，包含一组用自然语言表达的规则。

一组变量，用于存储对话状态。

TaskWeaver[21] 是一个代码优先框架，用于构建 LLM 支持的自主智体。它将用户请求转换为可执行代码，并将用户定义的插件视为可调用函数。 TaskWeaver 提供对丰富的数据结构、灵活的插件使用和动态插件选择的支持，并利用 LLM 编码功能来实现复杂的逻辑。它还通过示例整合了特定领域的知识，并确保生成代码的安全执行。

TaskWeaver 提供了一个强大而灵活的框架，用于创建智能会话智体，可以处理复杂的任务并适应特定领域的场景。

AI 初创公司 Cognition 发布了世界上第一位完全自主的 AI 软件工程师 Devin[22]，为 SWE-bench 编码基准设定了最新的新标准。只需一个提示，Devin 就能够编写代码或创建网站，就像人类软件工程师一样。

Devin 是一个自主人工智能模型，可以通过单一提示来规划、分析和执行复杂的代码和软件工程任务。它有自己的命令行、代码编辑器和单独的 Web 浏览器。在几个不同的 API 提供商上测试 Meta 公司的 Llama 2，可展示该模型的功能。在解决问题之前，Devin首先制定了一个分步骤的"规划"。然后，它继续使用与人类软件工程师相同的工具来构建整个项目。使用其内置浏览器，Devin 能够调出 API 文档来阅读并学习如何插入每个 API。最后，它构建并部署了一个具有完整样式的网站。

Devin 的与众不同之处在于它能够从错误中学习。它可以做出数千个决定，并且随着时间的推移变得更好。当它在一些标准的软件工程问题集上进行测试时，性能优于其他解决方案。Devin 还就 AI 任务接受了顶级科技品牌的采访，并达到了其期望。它还完成了Upwork上发布的真实工作任务，例如编码任务、调试计算机视觉模型以及生成详细报告。

AutoDev[23]，如图所示，使 AI 智体能够在存储库中执行多个操作来实现给定的目标。评估环境执行建议的操作，为 AI 智体提供结果。在对话中，紫色消息来自 AI 智体，而蓝色消息来自评估环境的响应。

普林斯顿大学将 LM（例如 GPT-4）转变为软件工程智体，称为 SWE-agent [24]，可以修复真实 GitHub 存储库中的错误和问题。它通过设计简单的以LM为中心的命令和反馈格式来实现，使LM更容易浏览存储库、查看、编辑和执行代码文件，这称为智体计算机接口（ACI）。使用智体时，良好的 ACI 设计会带来更好的结果。

6. PC智体

要在 PC 上执行任何任务，用户必须告诉设备要使用哪些应用程序。用户可以使用Microsoft Word和Google Docs起草商业提案，但它们无法帮助用户发送电子邮件、分享自拍照、分析数据、安排聚会或购买电影票。即使是最好的网站，对工作、个人生活、兴趣和关系的了解也是不完整的，并且利用这些信息为用户做事的能力也有限。这种事情只有在另一个人的帮助下才有可能实现，比如亲密的朋友或私人助理。

智体不仅会改变每个人与电脑交互的方式。他们还将颠覆软件行业，带来计算领域最大的革命，从输入命令、点击图标，到像人类一样说话发出命令。人们将能够与智体进行细致入微的对话。他们将更加个性化，他们不会局限于写信等相对简单的任务，而是成为人类助手、朋友或管家。

OS-Copilot[25] 是一个构建通用智体的框架，能够与操作系统 (OS) 中的综合元素进行交互，包括 Web、代码终端、文件、多媒体和各种第三方应用程序，如图所示。OS-Copilot 用于创建 FRIDAY，这是一个自我改进的实体智体，用于自动执行一般计算机任务。在通用人工智能助手基准 GAIA 上，FRIDAY 通过之前任务中积累的技能，对未见过的应用程序表现出很强的泛化能力。FRIDAY 可以在最少的监督下学习如何控制 Excel 和 Powerpoint 并自我改进。

UFO[26]，代表 Windows 操作系统上的 UI-Focused 智体，利用 GPT-Vision 的功能来满足针对应用程序定制的用户请求。如图所示的UFO，采用双智体框架来仔细观察和分析Windows应用程序的GUI和控制信息。这使得智体能够在各个应用程序内以及跨APP无缝导航和操作，以满足用户请求，即使跨越多APP也是如此。该框架包含一个控制交互模块，无需人工干预即可促进操作落地，并实现全自动执行。因此，UFO 将艰巨且耗时的过程转变为仅通过自然语言命令即可完成的简单任务。

7. 移动设备智体

尽管智能手机上的人工智能并不新鲜，但已经看到人工智能在设备上的 ISP 和 NPU 上运行了近十年。LLM的出现可重新思考和重新定义由生成式人工智能（GenAI）驱动的"具有人工智能功能"的智能手机定义。每个拥有智能手机的人都可以通过APP或浏览器访问"Big Three"人工智能聊天机器人------OpenAI 的 ChatGPT、微软的 Bing Chat 和谷歌的 Bard。LLM 标志着移动设备向更加智能和个性化的辅助智体迈出了一大步。

人工智能初创公司 Humane 希望口袋里的智能手机消失。它的第一款产品 Ai Pin[27] 是其在现实与数字的透明融合道路上迈出的第一步，这是一种用户可以佩戴并通过语音和手势进行交流的个人AI设备。

它展示了通过语音和前表面的触摸板与 Ai Pin 进行交互。该设备还配备了超广角摄像头、深度和运动传感器，以及旨在创造"声音泡沫"的"个人"扬声器------还提供蓝牙耳机连接。所有这一切均由运行 Humane 全新 Cosmos 操作系统的 Snapdragon 处理器提供支持。

Rabbit R1[28] 与其他设备不同，因为它以智能方式利用人工智能与LLM，使它们使用语音、文本或图像"触发"人机交互的结果。它将语音助手的功能与 ChatGPT 等LLM的 AI 能力相结合，对 HMI 进行创新，合并到基于智体的 AI 系统中，该系统可以跨各种界面和平台准确、快速地执行任务。

由此产生的解决方案是一个大型动作模型 (LAM)，有助于弥合精确理解用户和完成所需任务之间的差距。LAM 是 Rabbit OS 的基石。LAM 是一种基础模型（在谷歌的robot-transformer 2中提出过VLA模型），可以在计算机上理解人类的意图。借助 LAM，rabbit OS 可以理解内容并完成任务。

给定所需任务的自然语言描述，DroidBot-GPT[29] 可以自动生成并执行导航应用程序以完成任务的操作，如图所示。它的工作原理是把应用程序 GUI 状态信息和智能手机屏幕上操作，翻译为自然语言提示，并要求LLM做出行动选择。由于LLM通常接受大量数据（包括不同软件应用程序的操作手册）的训练，因此它有能力根据提供的信息做出合理的操作选择。

MM-Navigator[30] 是一个基于 GPT-4V 的智体，用于智能手机 GUI 导航任务。 MM-Navigator 可以作为人类用户与智能手机屏幕进行交互，并确定后续操作来完成给定的指令。具体来说，给定一个屏幕，它采用OCR 工具和 IconNet 检测 UI 元素。每个元素都有一个边框，并且包含 OCR 检测的文本或图标类标签（检测的 96 种图标类型之一）。

GptVoiceTasker[31] 是一款虚拟助手，旨在增强移动设备上的用户体验和任务效率，利用LLM来增强语音控制。GptVoiceTasker 擅长智能解读用户命令并执行相关设备交互以简化任务完成。系统不断从历史的用户命令中学习，自动化后续的使用，进一步提高执行效率。

MemoDroid[32] 是一款基于 LLM 的移动任务自动化工具，并具有独特的应用程序内存。如图所示的 MemoDroid 模拟人类与移动应用程序交互的认知过程------探索、选择、推导和回忆。这种方法可以将任务分解为更小的模块化组件来更精确、更高效地学习任务的过程，这些组件可以重复使用、重新安排和适应不同的目标。MemoDroid 使用在线LLM服务（GPT-3.5 和 GPT-4）来实现。

为了在移动设备内存预算紧张的情况下最大限度地减少 LLM 上下文切换开销，LLMaaS（LLM 作为移动设备的系统服务）[33] 以细粒度、分块、全局的思考解耦应用程序和 LLM 上下文的内存管理 -优化K-V缓存压缩和交换。通过充分利用K-V缓存的独特特性，它提出三种技术：（1）容忍-觉察压缩。 (2)IO-重计算流水线加载。 (3) chunk的生命周期管理。

8.多智体协同和个性化

在现实场景中，软件开发、咨询和游戏等复杂任务可能需要个体之间的合作才能取得更好的效率。纵观历史，大量研究深入探讨了加强人类之间协作以提高工作效率和效果的方法。最近，随着自主智体向通用人工智能的发展，某些研究将智体的集合概念化为一个社会或群体，并专注于探索它们合作的潜力。多智体组增强了协作解决问题过程中的决策能力。

CAMEL[34]应用了一种称为角色扮演的交流智体框架。它涉及使用初始提示来引导聊天智体完成任务，同时保持与人类意图的一致性。它展示了如何使用角色扮演来生成对话数据，以研究智体社会的行为和能力，为研究对话语言模型提供宝贵的资源。

MetaGPT[35] 是一个元编程框架，将人类工作流程纳入基于 LLM 的多智体协作中。MetaGPT 将标准化操作程序 (SOP) 编码为提示序列，实现更简化的工作流程，从而允许具有类人领域专业知识的智体验证中间结果并减少错误。MetaGPT 利用装配线模式为不同的智体分配不同的角色，有效地将复杂的任务分解为涉及多智体协同工作的子任务。

AutoGen[36] 是一个多功能框架，允许使用语言模型创建应用程序。它的独特之处在于其高度定制化，使开发人员能够使用自然语言和代码对智体进行编程，以定义这些智体如何交互。这种多功能性使其能够在不同领域使用，从编码和数学等技术领域到娱乐等以消费者为中心的领域。

AGENTS[37] 是一个开源库，其目标是向更广泛的非专业受众开放一些功能，例如自动解决各种任务以及使用自然语言界面与环境、人类和其他智体进行交互。AGENTS 经过精心设计，支持重要功能，包括规划、内存、工具使用、多智体通信和细粒度符号控制。

AgentVerse[38]框架模拟了人类群体的问题解决过程，并允许根据当前问题解决进度动态调整群体成员。具体来说，AgentVerse 将成组解决问题的过程分为四个关键阶段，如图所示：(1) 专家招募。(2)协同决策。(3) 动作执行。(4)评价。

多智体的角色扮演旨在启用或定制LLM来模拟具有不同属性和对话风格的各种性格或角色，这为用户提供了更细致的交互体验，并使LLM更加熟悉、友善和身临其境。

RoleLLM[39] 是一个针对闭源和开源模型的数据构建、评估和解决方案的角色扮演框架。RoleLLM 包括四个关键阶段，如图所示：(1) 角色档案构建；(2)基于上下文的指令(Context-Instruct)生成；(3)使用GPT的角色提示(RoleGPT)；(4)角色条件指令调整(RoCIT)以实现RoleLLaMA和RoleGLM。

LLM智体研究从简单的思维链提示发展到更为复杂的ReAct[40]和Reflection推理策略；智体架构也从单智体生成发展到多智体对话，以及多LLM多智体群聊。然而，由于现有复杂的框架和库，创建和评估新的推理策略和智体架构已成为一项复杂的挑战，这阻碍了对 LLM 智体的研究调查。

Salesforce 的 AI 研究开放了一个新的 AI 智体库 AgentLite[41]，它提供一个轻量级、用户友好的平台来轻松创新 LLM 智体推理、架构和应用程序，从而简化了构建过程。AgentLite是一个面向任务的框架，旨在增强智体分解任务的能力并促进多智体系统的开发。

9. AI 游戏

随着LLM能力的增强，开放世界游戏已成为语言智体应用的前沿。这是由于开放世界游戏中存在独特且具有挑战性的场景，这为通用语言LLM提供了肥沃的土壤。开放世界游戏呈现了丰富、动态且引人入胜的环境，包含复杂的任务和故事情节。他们需要使用智体来为非玩家角色（NPC）配备多样化的行为。

Minecraft 已成为一个无与伦比的平台，用于在充满长期挑战、环境破坏和不确定性的开放世界环境中研究自主且强大的通用智体 (GCA)。《Minecraft》是现实世界的一个缩影。开发一个能够应对 Minecraft 中所有技术挑战的自动化智体，类似于创建一个能够自主学习和掌握整个现实世界技术的 AI 智体。

《星际争霸 II》是暴雪娱乐于 2010 年推出的一款实时战略 (RTS) 游戏，在游戏界引起了广泛关注。标准游戏比赛的参与者有机会参与战略竞赛，同时扮演三个不同种族之一的角色：人族、虫族和神族。《星际争霸II》已经成为AI能力的理想测试平台，成为AI的下一个征服目标。

《文明》游戏与人类历史和社会有着深刻的契合，需要复杂的学习，而其不断变化的情况需要强大的推理来概括。

与现有游戏相比，战术战斗游戏更适合衡量LLM的游戏能力，因为胜率可以直接测量，并且始终有一致的对手，如人工智能或人类玩家。Poke'mon battle，作为知名 Poke'mon 游戏中考核训练者具备战斗能力的机制，作为 LLM 首次尝试战术战斗游戏，具有以下几个独特优势：

（1）状态和动作空间是离散的，可以无损地翻译成文本；

（2）回合制的赛制消除了密集玩法的需求；

（3）虽然看似简单的机制，但Poke'mon battle具有策略性和复杂性，对玩家的Poke'mon知识和推理能力都有很高的要求。

Ghost in the Minecraft (GITM)[42] 将LLM与基于文本的知识和记忆相结合，旨在在 Minecraft 中创建通用智体 (GCA)。这些智体配备了LLM的逻辑和常识能力，可以通过基于文本的交互熟练地驾驭复杂、奖励稀疏的环境。构建了一组结构化操作，并利用LLM来生成智体执行的操作规划。

VOYAGER[43] 是 Minecraft 中由 LLM 驱动的终身学习智体，它不断探索世界，获取多种技能，并在无需人工干预的情况下做出新的发现。VOYAGER 如图图所示由三个关键组件组成：1）最大化探索的自动课程，2）用于存储和检索复杂行为的不断增长的可执行代码技能库，以及 3）包含环境反馈的新迭代提示机制、执行错误以及程序改进的自我验证。VOYAGER 通过黑盒子查询与 GPT-4 交互，从而绕过了模型参数微调的需要。

角色扮演语言智体（LARP）[44] 是一个面向开放世界游戏的框架。 LARP 专注于将开放世界游戏与语言智体相结合，利用模块化方法进行记忆处理、决策和从交互中持续学习。在智体的内部描绘中，基于认知心理学设计了复杂的认知架构，使LARP框架下的智体具有很高的可玩性。为了产生更真实的角色扮演体验，智体使用开放世界游戏环境的数据和上下文、先验设定的个性、知识、规则、记忆和岗位约束进行规范化，这可以看作是通用语言智体。该架构包含一组较小的语言模型，每个模型都针对不同的领域进行了微调，以分别处理各种任务。

CivRealm[45] 是一个受《文明》游戏启发的环境。CivRealm 建立了一个不完全信息一般和游戏，玩家数量不断变化；它呈现出过多的复杂特征，挑战智体应对需要外交和谈判技能的开放式随机环境。在 CivRealm 中，为两种典型的智体类型提供了接口：专注于学习基于张量的智体，以及强调推理基于语言的智体。

为了利用语言模型的战略可解释性和 CoT 的逻辑推理能力，LLM 智体在《星际争霸 II 》等复杂的实时战略游戏中进行长期战略规划和实时战略调整。为了方便地充分利用 LLM 的推理能力，首先开发了一个文本 StratCraft II 环境，称为 TextStarCraft II[46]，如图所示，LLM智体可以与该环境进行交互。其次，提出了一种摘要链方法，包括用于处理原始观察的单帧摘要和用于分析游戏信息的多帧摘要。

SwarmBrain[47] 是一个利用 LLM 在《星际争霸 II》游戏环境中实现实时策略的实体智体。 SwarmBrain 包含两个关键组件：1）由LLM提供支持的Overmind Intelligence Matrix，旨在从高层角度协调宏观战略。 2）Swarm ReflexNet，它是与Overmind Intelligence Matrix的计算相对应的敏捷版。

POKE ́LLMON[48] 是一种 LLM 具身智体，它在战术战斗游戏中实现了与人类同等的性能，正如 Poke ́mon 战斗中所展示的那样。POKE ́LLMON 的设计包含三个关键策略：（i）上下文强化学习；(ii) 知识增强生成；(iii) 一致的行动产生。

10. 智能座舱和自动驾驶

曾经只能进行相对原始的语音命令，现在更智能的助手可以与驾驶员进行对话，助手可以理解上下文并回答后续问题。汽车需要维修时也会主动联系驾驶员。

驾驶功能和车载信息娱乐系统可以通过语音、手势和面部识别来控制，并且还可以对驾驶员和乘客（例如儿童）进行"安全监控"。

因此，LLM不仅改变了驾驶员与车辆的通信，使其更具互动性和个性化，而且还承诺通过做出更快、更好的决策来改进自动驾驶功能。

基于LLM，人工智能可以在三项服务中帮助移动市场受益：主动关怀、主动旅程和主动出行。主动旅程意味着人工智能可以检查驾驶员的通勤和日程安排，以确保有效的时间管理，还可以检查交通倾向。主动出行与自动驾驶相辅相成，因为人工智能带来了增强现实和车载信息娱乐，让汽车行驶时的用户受益。主动关怀将为车主提供无忧的车辆体验。人工智能可以负责管理和后勤工作，例如为车辆投保、预订维护，甚至预测潜在问题。

然而，它也可以提供主动的沟通和建议，将财务决策留给司机。这意味着人工智能可以帮助维持客户忠诚度，特别是对于需要较少维护的电动汽车（EV）而言。该技术可以帮助确保驾驶员与制造商互动，而不是考虑第三方。

• 智能座舱

车载对话助理 (IVCA) 是智能驾驶舱不可或缺的组成部分，在促进人机交互方面发挥着至关重要的作用。它们可以提供包括导航、娱乐控制和免提电话操作等功能。

研究表明，IVCA 的主动性有助于减少干扰，提高驾驶安全性，更好地满足用户的认知需求。然而，现有的 IVCA 在用户意图识别和上下文感知方面遇到了困难，这导致主动交互效果不佳。

针对 IVCA，一个Rewrite-ReAct-Reflect (R3) 提示框架 [49]被构建，该框架具有跨越两个维度（假设和自主）的5个主动级别，如图所示。ReAct[40] 是基于 LLM 的方法，用于以交错的方式生成推理轨迹和特定任务动作。R3 战略旨在使LLM能够在与用户互动时满足每个主动级别的特定需求。

• 自动驾驶

知识是人类对现实世界场景和事件表征的具体化和概括，代表着经验和因果推理的总结。知识驱动方法旨在将驾驶场景信息引入知识增强表示空间并推导出广义驾驶语义空间。它能够模拟人类对现实世界的理解，并从经验中获得学习和推理能力。

由于拥有丰富的人类驾驶经验和常识，LLM通常被用作当今知识驱动自动驾驶的基础模型，以主动从驾驶场景中理解、交互、获取知识和推理。类似于具身AI，驾驶智体应该具备与驾驶环境交互的能力，进行探索、理解、记忆和反思。

称作DiLu[50] 的框架是为基于 LLM 的知识驱动驾驶而设计的。具体来说，驾驶员智体利用推理模块从记忆模块中查询经验，并利用LLM的常识知识根据当前场景生成决策。然后，它根据 LLM 中嵌入的知识，使用反思模块来识别推理模块产生的安全和不安全决策，随后将其提炼为正确的决策，然后将其更新到记忆模块中。

"Driver Anywhere"[51] 是一个利用多模态基础模型来增强自动驾驶系统鲁棒性和适应性的框架，从而实现分布式、端到端、多模态和更可解释的自主。具体来说，它应用端到端开放集（任何环境/场景）自动驾驶，能够根据图像和文本查询表征提供驾驶决策。

上下文-觉察视觉落地（CAVG）模型[52]是一种先进的自动驾驶系统，集成了五个核心编码器（文本、图像、上下文和跨模态）和多模态解码器。这种集成使 CAVG 模型能够熟练地捕获上下文语义并学习人类情感特征，并通过包括 GPT-4 在内的 LLM 进行增强。

如图所示的 DriveGPT4[53]，是一个可解释的端到端自动驾驶系统，利用具有综合多模态语言模型的LLM来处理包括视频、文本和控制信号的输入。视频序列使用专用视频token化器进行token化，而文本和控制信号共享公共标记器。在token化之后，高级语言模型可以同时生成对人类查询的响应并预测下一步的控制信号。

VLP[54] 是视觉语言规划框架，利用语言模型来弥合语言理解和自动驾驶之间的差距。 VLP 通过加强源记忆基础和自动驾驶汽车的上下文理解，利用局部和全局环境中的LLM来增强自动驾驶系统。以智体为中心的学习范式（ALP）专注于细化局部细节以增强源记忆推理，而以自动驾驶汽车为中心的学习范式（SLP）则专注于指导自动驾驶汽车（SDC）的规划过程。

DriveVLM[55] 是一种自动驾驶系统，利用视觉语言模型 (VLM) 来增强场景理解和规划能力。DriveVLM 集成了用于场景描述、场景分析和分层规划的思维链 (CoT) 模块的独特组合。此外，认识到 VLM 在空间推理和繁重计算要求方面的局限性，提出了混合系统 DriveVLM-Dual，它将 DriveVLM 与传统自动驾驶流水线的优势相结合。DriveVLM-Dual 实现了强大的空间理解和实时推理速度。

如图所示，称为 Agent-Driver[56] 的语言智体引入了函数调用访问的工具库、用于决策的常识和经验知识的认知记忆，以及能够进行 CoT 推理、任务规划、运动规划和自我反思。在LLM的支持下，Agent-Driver 实现了一种更细致、更人性化的自动驾驶方法。

11. AI终端设备的分级

个人LLM智体所需的功能需要不同类型的功能。受SAE（汽车工程师学会）给出的自动驾驶L0-L5级别的启发，清华大学[57]将个人LLM 智体的智能级别分为5个级别，从L1到L5。每个级别的关键特征和代表性用例列于下表1中。

车载对话助理（IVCA）的主动性分级是由同济大学（中国上海）基于假设和自主性设计的[49]。将用户控制作为设计原则或约束，将主动性级别分为五级，如表2所示。

类似地，在此设想对终端设备的 AI 自动化级别进行分类，如表3 所示。

参考文献

1\] G Caldarini, S Jaf, and K McGarry, A Literature Survey of Recent Advances in Chatbots, arXiv 2201.06657, 2022 \[2\] R Sutcliffe, A survey of personality, persona, and profile in conversational agents and Chatbots, arXiv 2401.00609, 2024 \[3\] K Wang, J Ramos, R Lawrence, ChatEd: A Chatbot Leveraging ChatGPT for an Enhanced Learning Experience in Higher Education, arXiv 2401.00052, 2024 \[4\] P Ramjee, B Sachdeva, S Golechha, et al., CataractBot: An LLM-Powered Expert-in-the-Loop Chatbot for Cataract Patients, arXiv 2402.04620, 2024 \[5\] Zhongqi Yang, Elahe Khatibi, Nitish Nagesh, et al., ChatDiet: Empowering Personalized Nutrition-Oriented Food Recommender Chatbots through an LLM-Augmented Framework, arXiv 2403.00781, 2024 \[6\] D Zhang, L Chen, Z Zhao, R Cao, and K Yu. Mobile-Env: An evaluation platform and benchmark for interactive agents in LLM era. arXiv 2305.08144, 2023. \[7\] W Hong, W Wang, Q Lv, et al., CogAgent: A Visual Language Model for GUI Agents, arXiv 2312.08914, 2023 \[8\] X Ma, Z Zhang, H Zhao, Comprehensive Cognitive LLM Agent for Smartphone GUI Automation, arXiv 2402.11941, 2024 \[9\] Pioneering a New Era of Intelligent Living, JoshGPT, https://www.josh.ai/joshgpt/, 2023 \[10\] H Li, J Su, Y Chen, Q Li, and Z Zhang. SheetCopilot: Bringing software productivity to the next level through large language models. arXiv 2305.19308, 2023. \[11\] W Zhang, Y Shen, W Lu, Y Zhuang, Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow, arXiv 2306.07209, 2023 \[12\] J Ye, A Hu, H Xu, et al., mPLUG-DocOwl: Modularized multimodal large language model for document understanding. arXiv 2307.02499, 2023 \[13\] A Hu, Y Shi, H Xu, et al., mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model, arXiv 2311.18248, 2023 \[14\] S Wasserkrug, L Boussioux, Di Hertog, et al., From Large Language Models and Optimization to Decision Optimization CoPilot: A Research Manifesto, arXiv 2402.16269, 2024 \[15\] H Furuta, K-H Lee, O Nachum, et al., Multimodal web navigation with instruction-finetuned foundation models (WebGUM), arXiv 2305.11854, 2023 \[16\] X Deng, Y Gu, B Zheng, S Chen, S Stevens, B Wang, H Sun, and Y Su. Mind2Web: Towards a generalist agent for the web. arXiv 2306.06070, 2023. \[17\] S Zhou, F Xu, H Zhu, et al. WebArena: A realistic web environment for building autonomous agents. arXiv 2307.13854, 2023. \[18\] I Gur, H Furuta, A Huang, M Safdari, Y Matsuo, D Eck, and A Faust. A real-world WebAgent with planning, long context understanding, and program synthesis. arXiv 2307.12856, 2023. \[19\] K Yang, J Liu, J Wu, et al., If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents, arXiv 2401.00812, 2024 \[20\] P Ym, V Ganesan, D K Arumugam, et al., PwR: Exploring the Role of Representations in Conversational Programming, arXiv 2309.09495, 2023 \[21\] B Qiao, L Li, X Zhang, et al., TaskWeaver: A Code-First Agent Framework, arXiv 2311.17541, 2023 \[22\] Introducing Devin, the first AI software engineer, https://www.cognition-labs.com/introducing-devin, Mar., 2024 \[23\] M Tufano, A Agarwal, J Jang, AutoDev: Automated AI-Driven Development, arXiv 2403.08299, 2024 \[24\] SWE-agent: Agent Computer Interfaces Enable Software Engineering Language Models, https://github.com/princeton-nlp/SWE-agent, Mar. 2024 \[25\] Z Wu, C Han, Z Ding, et al., OS-Copilot: Towards generalist computer agents with self-improvement, arXiv 2402.07456, 2024 \[26\] C Zhang, L Li, S He, et al., UFO: A UI-Focused Agent for Windows OS Interaction, arXiv 2402.07939, 2024 \[27\] Humane AI Pin, https://humane.com/aipin, 2023 \[28\] Rabbit R1, https://www.rabbit.tech/rabbit-r1, 2023 \[29\] H Wen, H Wang, J Liu, and Y Li. DroidBot-GPT: GPT-powered UI automation for android. arXiv 2304.07061, 2023. \[30\] A Yan, Z Yang, W Zhu, et al. GPT-4V in Wonderland: Large multimodal models for zero-shot smartphone GUI navigation (MM-Navigator). arXiv 2311.07562, 2023. \[31\] M D Vu, H Wang, Z Li, et al., GPTVoiceTasker: LLM-Powered Virtual Assistant for Smartphone, arXiv 2401.14268, 2024 \[32\] S Lee, J Choi, J Lee, et al. Explore, select, derive, and recall: Augmenting LLM with human-like memory for mobile task automation (MemoDroid). arXiv 2312.03003, 2023. \[33\] W Yin, M Xu, Y Li, X Liu, LLM as a System Service on Mobile Devices, arXiv 2403.11805, 2024 \[34\] G Li, H A K Hammoud, H Itani, et al., CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society, arXiv 2303.17760, 2023 \[35\] S Hong, X. Zheng, J. Chen, et al. MetaGPT: Meta programming for multi-agent collaborative framework. arXiv 2308.00352, 2023. \[36\] Q Wu, G Bansal, J Zhang, et al., AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, arXiv 2308.08155, 2023 \[37\] W Zhou, Y E Jiang, L Li, et al., AGENTS: An Open-source Framework for Autonomous Language Agents, arXiv 2309.07870, 2023 \[38\] Weize Chen, Yusheng Su, Jingwei Zuo, et al., AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors, arXiv 2308.10848, 2023 \[39\] Z M Wang, Z Peng, H Que, et al., RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, arXiv 2310.00746, 2023 \[40\] S Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, arXiv 2210.03629, 2022 \[41\] Z Liu, W Yao, J Zhang, et al., AgentLite：A Lightweight Library for Building and Advancing Task-Oriented LLM Agent System, arXiv 2402.15538, 2024 \[42\] X Zhu, Y Chen, H Tian, et al., Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via LLMs with Text-based Knowledge and Memory, arXiv 2305.17144, 2023 \[43\] G Wang, Y Xie, Y Jiang, et al., VOYAGER: An Open-Ended Embodied Agent with Large Language Models, arXiv 2305.16291, 2023 \[44\] M Yan, R Li, H Zhang, et al., LARP: Language-agent Role Play for Open-world Games, arXiv 2312.17653, 2023 \[45\] S Qi, S Chen, Y Li, et al., CivRealm: a learning and reasoning odyssey in civilization for decision-making agents, arXiv 2401.10568, 2024 \[46\] W Ma, Q Mi, X Yan, et al., Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach, arXiv 2312.11865, 2023 \[47\] X Shao, W Jiang, F Zuo, M Liu, SwarmBrain: embodied agent for real-time strategy game starcraft ii via large language models, arXiv 2401.17749, 2024 \[48\] S Hu, T Huang, L Liu, Poke ́LLMon: A Human-Parity Agent for Poke'mon Battles with Large Language Models, arXiv 2402.01118, 2024 \[49\] H Du, X Feng, J Ma, et al., Towards Proactive Interactions for In-Vehicle Conversational Assistants Utilizing Large Language Models, arXiv 2403.09135, 2024 \[50\] L Wen et al., DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models, arXiv 2309.16292, 2023 \[51\] T-H Wang et al., Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models, arXiv 2310.17642, 2023 \[52\] H Liao, H Shen, Z Li, et al., GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models(CAVG), arXiv 2312.03543, 2023 \[53\] Z Xu et al., DriveGPT4: Interpretable End-To-End Autonomous Driving Via Large Language Model, arXiv 2310.01412, 2023 \[54\] C Pan, B Yaman, T Nesti, et al., VLP: Vision Language Planning for Autonomous Driving, arXiv 2401.05577, 2024 \[55\] X Tian, J Gu, Bailin Li, et al., DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models, arXiv 2402.12289, 2024 \[56\] J Mao, J Ye, Y Qian, M Pavone, Y Wang, A Language Agent for Autonomous Driving(Agent-Driver), arXiv 2311.10813, 2023 \[57\] Y Li, H Wen, W Wang, et al., Personal LLM agents: insights and survey about the capability, efficiency and security, arXiv 2401.05459, 2024