基于自主大型语言模型代理的AIoT智能家居

中文标题 ：基于自主大型语言模型代理的AIoT智能家居
英文标题：AIoT Smart Home via Autonomous LLM Agents

作者信息

Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam Sigal, Xue Liu, Gregory Dudek

论文出处

《IEEE Internet of Things Journal》, 第12卷, 第3期, 2025年2月1日

摘要

本文介绍了一种名为SAGE（Smart Home Agent with Grounded Execution）的智能家居助手框架，该框架通过利用大型语言模型（LLM）的常识推理能力和广泛的知识，解决了现有智能家居助手在理解用户自然语言命令、与环境交互以及缺乏用户习惯和偏好知识方面的局限性。SAGE通过构建动态的LLM提示树来控制用户请求触发的一系列离散动作，这些动作可以用于检索信息、与用户交互或操作设备状态。SAGE还扩展了LLM的能力，以支持智能家居助手的关键需求，例如灵活的用户偏好管理、无需设备特定代码即可访问任何智能设备的完整功能、持续的设备状态监控、通过房间照片自然引用设备等。SAGE在50个新的挑战性智能家居任务基准测试中达到了76%的成功率，显著优于现有的LLM基础基线（30%的成功率）。

引言

智能家居作为物联网（IoT）市场的重要组成部分，其自动化助手在控制和协调智能设备方面变得越来越灵活和强大。然而，现有的智能家居助手在理解用户自然语言命令、与环境交互以及了解用户习惯和偏好方面仍存在显著差距。本文提出了一种新的智能家居助手框架SAGE，通过自主LLM代理的方式，克服了现有系统的局限性，并通过一系列工具增强了LLM的能力。

系统概述

SAGE的决策过程基于一个动态构建的LLM提示树，通过一系列工具来执行用户请求。这些工具包括设备消歧工具、设备交互工具、持续命令处理工具和个人化工具等。SAGE的决策过程通过算法实现，允许LLM自主决定每个步骤中使用的工具及其参数。

工具

SAGE集成了多种工具，分为以下几类：

个人化工具

个人化工具结合了长期记忆和用户画像，以更好地理解用户偏好并生成个性化的响应。长期记忆通过密集检索嵌入模型存储用户过去的交互历史，而用户画像则提供用户偏好的高层次总结。SAGE还引入了人类交互工具，允许代理通过提问澄清用户意图。

设备交互工具

设备交互工具通过一系列子工具实现与智能设备的灵活交互。这些工具包括设备交互规划工具、API文档检索工具、设备属性检索工具和设备命令执行工具。SAGE还引入了设备消歧工具，利用视觉上下文（通过设备照片）来确定用户所指的设备，而无需手动设置设备名称。

持续命令处理工具

SAGE通过条件代码编写工具和条件轮询工具实现对设备状态的持续监控和条件触发行为。这些工具利用LLM生成的代码来实现灵活的条件逻辑，从而支持复杂的持续命令。

执行示例

文章通过一个示例展示了SAGE如何处理用户命令"Put the game on by the dresser"。SAGE首先通过个人化工具检查用户偏好，然后调用设备交互工具，通过设备消歧工具确定正确的设备，最后通过设备命令执行工具完成任务。

评估

为了评估SAGE的性能，作者设计了一个包含50个任务的基准测试，这些任务涵盖了个性化、意图解析、设备解析、持续性和命令链等技术挑战。SAGE在这些任务上达到了76%的成功率，显著优于两个基线方法（One Prompt和Sasha）。此外，SAGE还通过一个包含10个额外任务的测试集进行了验证，以确保其性能的泛化能力。

结果

SAGE在50个任务上的成功率为76%，显著优于基线方法。GPT4作为SAGE的主要LLM，表现最佳，而其他LLM（如GPT4-turbo、GPT3.5-turbo、Lemur和Claude2.1）的表现则各有差异。手动故障分析揭示了不同LLM失败的主要原因，例如GPT4-turbo在工具使用方面存在问题，而Claude2.1在遵循格式和工具选择方面表现不佳。

可扩展性和适应性

SAGE的设计允许其轻松扩展到各种设备类型和用户偏好。通过简单地添加设备的自然语言文档，SAGE可以自动集成新设备的所有功能。此外，SAGE的用户偏好工具能够适应不同用户的独特偏好，无需人工干预。

结论

SAGE通过集成多种工具和LLM的强大能力，为智能家居自动化提供了一种灵活且自然的解决方案。尽管SAGE在某些任务上仍有改进空间，但其性能已经显著优于现有系统。随着开源LLM的不断发展，预计SAGE在未来将能够实现更高效和低成本的智能家居控制。