酷炫!向数字世界 AGI 迈进!让智能体直接控制键盘、鼠标,与一切软件交互


信息革命催生了数字世界,这个世界为大模型提供了海量数据,同时也为通用人工智能(AGI)的实现提供了可能。在迈向数字世界的 AGI 的过程中,北京智源人工智能研究院、新加坡南洋理工大学和北京大学联合提出了一种名为 General Computer Control (GCC) 的通用计算机控制方法。这种方法要求智能体像人一样观察屏幕,并通过键盘和鼠标完成所有的计算机任务。在过去的一段时间里,人工智能研究主要以游戏为场景。然而,GCC 将为通用人工智能研究提供新的场景,并进一步推动大模型和 AI Agents 的实际应用和产业化。

因此,研究团队提出了一个名为 Cradle 的通用计算机控制智能体框架。这个框架使智能体能够直接控制键盘和鼠标与任何软件进行交互,而无需依赖任何内部 API,无论该软件是开源的还是闭源的。它甚至能够玩《荒野大镖客 2》这样的商业 3A 游戏大作!

一句话总结:Cradle 是一种通用计算机控制智能体框架,通过决策推理模块实现智能体与软件的交互和任务完成。

论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

论文链接:https://arxiv.org/abs/2403.03186

项目主页:https://baai-agents.github.io/Cradle/

代码链接:https://github.com/BAAI-Agents/Cradle

这项研究实现了一个名为 Cradle 的多模态智能体框架,它旨在通过屏幕图像和键盘鼠标操作来控制计算机任务。

  • 通用计算机控制 :Cradle 框架旨在实现通用计算机控制(GCC),即智能体能够通过屏幕图像和可能的音频输入以及键盘和鼠标操作来掌握任何计算机任务。

  • 挑战与模块:GCC 面临多种挑战,包括多模态观察、精确控制、长期记忆和推理能力,以及高效探索和自我改进的能力。Cradle 通过六个主要模块来应对这些挑战,包括信息收集、自我反思、任务推断、技能管理、行动规划和记忆。

  • 案例研究:Cradle 在复杂的 AAA 级游戏《荒野大镖客 2》中进行了部署,展示了其在复杂目标下的通用化和自我改进能力。

  • 限制与未来工作:文章还讨论了当前代理模型的局限性,包括空间感知、图标理解和历史处理,并提出了未来改进的方向。

总结要点

  • 通用计算机控制(GCC)是一种让智能体直接控制键盘、鼠标,并与一切软件进行交互的技术。Cradle 是一个通用计算机控制智能体框架,由北京智源人工智能研究院、新加坡南洋理工大学和北京大学共同提出。

  • Cradle 的决策推理模块让智能体能够自发地与软件进行交互并完成任务。Cradle 的通用性和强大的决策能力在商业 3A 游戏《荒野大镖客 2》中得到了验证。

  • Cradle 的开源代码可以很容易地扩展到其他软件和游戏。研究团队表示,为了能够实现真正的通用计算机控制,后续 Cradle 还将移植到更多软件和游戏上,也鼓励相关研究团队 / {/} /工业界开展进一步的研究与探索。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升,实现通用性,最终成为通用人工智能诞生的摇篮。

相关推荐
GPT-Hub3 天前
GPT-4与ChatGPT:人工智能对话的新时代【含国内可用gpt】
人工智能·gpt·自然语言处理·chatgpt·agi
youcans_5 天前
OpenAI全新发布o1模型:开启 AGI 的新时代
人工智能·chatgpt·agi
AI大模型训练家6 天前
运维人员转行 AI 大模型全攻略:史上最详尽总结,一篇在手,转行无忧!
运维·人工智能·chatgpt·产品经理·agi
AI大模型训练家6 天前
OpenAI的API调用之初探,python调用GPT-API(交互式,支持多轮对话)
人工智能·python·gpt·学习·程序人生·dubbo·agi
吕小明么6 天前
北大&阿里:新出炉的LLM偏好对齐方法综述
人工智能·算法·语言模型·aigc·agi
张3蜂7 天前
人工智能领域的AGI指的是什么?
人工智能·agi
AI大模型训练家7 天前
大模型 LLM(Large Language Models)如今十分火爆,对于初入此领域的新人小白来说,应该如何入门 LLM 呢?是否有值得推荐的入门教程呢?
人工智能·语言模型·自然语言处理·chatgpt·aigc·agi
AI-入门7 天前
AI 产品经理:2024 年职场新航标 ——AI 产品经理的未来与契机
人工智能·chatgpt·prompt·产品经理·agi
健忘的派大星9 天前
报告 | 中国信通院《大模型落地路线图研究报告(2024年)》(附下载)
人工智能·ai·语言模型·pdf·大模型·llm·agi
小城哇哇11 天前
学习大模型最佳书籍推荐:NUS尤洋教授所著新书《实战AI大模型》,得到李开复、颜水成、周鸿祎大牛鼎力推荐
人工智能·学习·ai·语言模型·自然语言处理·llm·agi