微软发布Windows Agent Arena 为生成式AI代理提供基准测试

使用生成式人工智能和大型语言模型来自动化和简化使用 PC 的人员的任务的情况持续增长。不过,人们也需要了解人工智能在完成任务方面的工作表现。本周微软研究院宣布,它已开发出一种专门用于在 Windows PC 上测试人工智能代理的基准。

微软在 GitHub 页面上公布的这一基准名为 Windows Agent Arena。该框架旨在测试人工智能代理与人类通常使用的 Windows 应用程序的交互能力和速度。在 Windows Agent Arena 中与 AI 代理进行测试的应用程序列表包括Microsoft Edge 和Google Chrome 浏览器等网页浏览器、文件资源管理器设置等操作系统功能、Visual Studio Code 等编码应用程序、记事本、时钟和画图等简单的预装 Windows 应用程序,甚至还包括使用 VLC 播放器观看视频。

微软表示:

我们对 OSWorld 框架进行了调整,创建了 150 多个不同的 Windows 任务,这些任务跨越了需要代理在规划、屏幕理解和工具使用方面具备能力的代表性领域。我们的基准还具有可扩展性,可在 Azure 中进行无缝并行化,在短短 20 分钟内即可完成完整的基准评估。

微软研究院也创建了自己的多模式代理,名为 Navi,并在 Windows Agent Arena 基准测试中进行了测试。测试要求它在某些文本提示下执行任务,例如:"你能把我正在浏览的网站转换成 PDF 文件并放到我的主屏幕上吗?"测试发现,Navi 的平均成功率为 19.5%,与人类 74.5% 的成功率相比仍然很低。

有了 Windows Agent Arena 这样的基准,对创建人工智能代理来说将是一个巨大的发展,这样它们就能得到改进,表现得更接近人类的水平。

微软团队还与卡内基梅隆大学和哥伦比亚大学的研究人员合作完成了该项目。您可以在 GitHub 上查看论文全文以及该基准的代码。

https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf

https://github.com/microsoft/WindowsAgentArena

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

相关推荐
喵~来学编程啦24 分钟前
【论文精读】LPT: Long-tailed prompt tuning for image classification
人工智能·深度学习·机器学习·计算机视觉·论文笔记
深圳市青牛科技实业有限公司37 分钟前
【青牛科技】应用方案|D2587A高压大电流DC-DC
人工智能·科技·单片机·嵌入式硬件·机器人·安防监控
水豚AI课代表1 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
几两春秋梦_1 小时前
符号回归概念
人工智能·数据挖掘·回归
用户691581141652 小时前
Ascend Extension for PyTorch的源码解析
人工智能
用户691581141652 小时前
Ascend C的编程模型
人工智能
成富3 小时前
文本转SQL(Text-to-SQL),场景介绍与 Spring AI 实现
数据库·人工智能·sql·spring·oracle
CSDN云计算3 小时前
如何以开源加速AI企业落地,红帽带来新解法
人工智能·开源·openshift·红帽·instructlab
艾派森3 小时前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
hairenjing11233 小时前
在 Android 手机上从SD 卡恢复数据的 6 个有效应用程序
android·人工智能·windows·macos·智能手机