基于自主大型语言模型代理的AIoT智能家居

中文标题 :基于自主大型语言模型代理的AIoT智能家居
英文标题:AIoT Smart Home via Autonomous LLM Agents

作者信息

Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam Sigal, Xue Liu, Gregory Dudek

论文出处

《IEEE Internet of Things Journal》, 第12卷, 第3期, 2025年2月1日


摘要

本文介绍了一种名为SAGE(Smart Home Agent with Grounded Execution)的智能家居助手框架,该框架通过利用大型语言模型(LLM)的常识推理能力和广泛的知识,解决了现有智能家居助手在理解用户自然语言命令、与环境交互以及缺乏用户习惯和偏好知识方面的局限性。SAGE通过构建动态的LLM提示树来控制用户请求触发的一系列离散动作,这些动作可以用于检索信息、与用户交互或操作设备状态。SAGE还扩展了LLM的能力,以支持智能家居助手的关键需求,例如灵活的用户偏好管理、无需设备特定代码即可访问任何智能设备的完整功能、持续的设备状态监控、通过房间照片自然引用设备等。SAGE在50个新的挑战性智能家居任务基准测试中达到了76%的成功率,显著优于现有的LLM基础基线(30%的成功率)。

引言

智能家居作为物联网(IoT)市场的重要组成部分,其自动化助手在控制和协调智能设备方面变得越来越灵活和强大。然而,现有的智能家居助手在理解用户自然语言命令、与环境交互以及了解用户习惯和偏好方面仍存在显著差距。本文提出了一种新的智能家居助手框架SAGE,通过自主LLM代理的方式,克服了现有系统的局限性,并通过一系列工具增强了LLM的能力。

相关工作

智能家居自动化

智能家居系统通过连接的IoT设备实现对家庭环境的监控、传感和控制。现有的智能家居助手(如Bixby、Alexa、Google Assistant等)在处理复杂或隐含命令时存在困难。最近的研究尝试利用LLM的强大推理能力来更好地理解和执行用户命令,例如Sasha项目通过固定决策管道利用LLM实现智能家居控制,但其阶段是手动定义且固定的,限制了灵活性。

自主代理

LLM驱动的自主代理通过将任务分解为多个阶段或子任务来执行复杂任务。例如,Chain of Thought(CoT)技术通过逐步规划和行动使代理能够进行复杂推理。SAGE在此基础上进一步扩展,通过动态构建工具选择提示和工具接口,克服了LLM在特定知识方面的不足。

系统概述

SAGE的决策过程基于一个动态构建的LLM提示树,通过一系列工具来执行用户请求。这些工具包括设备消歧工具、设备交互工具、持续命令处理工具和个人化工具等。SAGE的决策过程通过算法实现,允许LLM自主决定每个步骤中使用的工具及其参数。

工具

SAGE集成了多种工具,分为以下几类:

个人化工具

个人化工具结合了长期记忆和用户画像,以更好地理解用户偏好并生成个性化的响应。长期记忆通过密集检索嵌入模型存储用户过去的交互历史,而用户画像则提供用户偏好的高层次总结。SAGE还引入了人类交互工具,允许代理通过提问澄清用户意图。

设备交互工具

设备交互工具通过一系列子工具实现与智能设备的灵活交互。这些工具包括设备交互规划工具、API文档检索工具、设备属性检索工具和设备命令执行工具。SAGE还引入了设备消歧工具,利用视觉上下文(通过设备照片)来确定用户所指的设备,而无需手动设置设备名称。

持续命令处理工具

SAGE通过条件代码编写工具和条件轮询工具实现对设备状态的持续监控和条件触发行为。这些工具利用LLM生成的代码来实现灵活的条件逻辑,从而支持复杂的持续命令。

执行示例

文章通过一个示例展示了SAGE如何处理用户命令"Put the game on by the dresser"。SAGE首先通过个人化工具检查用户偏好,然后调用设备交互工具,通过设备消歧工具确定正确的设备,最后通过设备命令执行工具完成任务。

评估

为了评估SAGE的性能,作者设计了一个包含50个任务的基准测试,这些任务涵盖了个性化、意图解析、设备解析、持续性和命令链等技术挑战。SAGE在这些任务上达到了76%的成功率,显著优于两个基线方法(One Prompt和Sasha)。此外,SAGE还通过一个包含10个额外任务的测试集进行了验证,以确保其性能的泛化能力。

结果

SAGE在50个任务上的成功率为76%,显著优于基线方法。GPT4作为SAGE的主要LLM,表现最佳,而其他LLM(如GPT4-turbo、GPT3.5-turbo、Lemur和Claude2.1)的表现则各有差异。手动故障分析揭示了不同LLM失败的主要原因,例如GPT4-turbo在工具使用方面存在问题,而Claude2.1在遵循格式和工具选择方面表现不佳。

可扩展性和适应性

SAGE的设计允许其轻松扩展到各种设备类型和用户偏好。通过简单地添加设备的自然语言文档,SAGE可以自动集成新设备的所有功能。此外,SAGE的用户偏好工具能够适应不同用户的独特偏好,无需人工干预。

结论

SAGE通过集成多种工具和LLM的强大能力,为智能家居自动化提供了一种灵活且自然的解决方案。尽管SAGE在某些任务上仍有改进空间,但其性能已经显著优于现有系统。随着开源LLM的不断发展,预计SAGE在未来将能够实现更高效和低成本的智能家居控制。

相关推荐
墨染天姬1 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志2 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114242 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠2 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光2 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好2 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力3 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo3 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_3 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL3 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理