PromptRPA-手机上的智能代理框架

PromptRPA的设计基于一个智能代理的多代理框架，这些代理模拟人类的认知功能，专门用于解释用户意图、管理RPA生成的外部信息以及在智能手机上执行操作。传统的RPA技术能有效地自动化图形用户界面（GUI）上的任务，通过模仿人类交互而不修改现有代码，然而，其广泛采用受到了编写脚本语言和工作流设计专业知识需求的限制。

本文专注如何简化和扩展RPA技术，使其更易于通过非技术用户的自然语言指令来实现：

👉 挑战1：理解复杂和多变的用户意图

问题：用户输入的自然语言指令可能包含模糊不清或多义的表达，理解这些复杂的用户意图是具有挑战性的。

解决方式：PromptRPA采用智能代理来解析用户的文本输入，将其转换为明确的任务模型。例如，如果用户输入"组织我的照片并按日期分类"，PromptRPA将此解析为具体的文件管理和排序任务，并自动执行这些操作。

👉 挑战2：如何确保RPA任务的高效执行

问题：在动态和复杂的GUI环境中执行自动化任务可能因操作错误或不匹配而失败。

解决方式：PromptRPA通过其智能代理对智能手机操作进行管理，确保自动化任务精确执行。例如，在自动化电子邮件附件的下载过程中，系统会确保正确识别邮件应用中的下载按钮，并模拟点击操作以成功保存附件。

👆的两个解决方案使PromptRPA能够提高任务的自动化成功率，从基线的22.28%提升到95.21%，并且平均每个新任务只需要1.66次用户干预。这显示了PromptRPA在将用户的自然语言指令转化为有效的自动化任务方面的高效能力。

该系统的工作流程如下：

1️⃣ 接收文本提示：用户通过输入文本提示（例如任务的目标或步骤）来表达他们想要自动化的任务。

2️⃣ 文本解析和任务模型生成：这些文本提示被转换成结构化的操作序列。PromptRPA使用一种正式的RPA任务模型来理解这一过程，这个模型描述了从任务开始到完成的整个生命周期。

3️⃣ 智能代理执行：智能代理基于解析的任务模型执行具体的RPA任务。这些代理能够从用户反馈中学习并根据累积的知识持续提高其性能。

PromptRPA通过智能代理自动化了智能手机上的RPA任务生成和执行，显著提高了任务的成功率，并减少了用户干预的次数。这项技术在教程创建、智能助理和客户服务等领域具有广泛的应用前景。

今日 git 更新了多篇 arvix 上最新发表的论文，更详细的总结和更多的论文，

请移步 🔗github 搜索 llm-paper-daily 每日更新论文，觉得有帮助的，帮帮点个 🌟 哈。