Agent-S 安装使用教程:自动操作电脑的 AI

|---|
| |

|----------------------------------------------------------|
| 🤖 ## Agent-S 安装使用教程 首个超越人类的计算机操作 AI,让电脑自己干活 ⭐ 9.4K Star |

|---|
| |

🚀 项目介绍

Agent-S 是由 Simular AI 开发的开源框架,让 AI 能够像人类一样操作电脑。它可以:

|--------------------------------|
| ✅ 自动点击鼠标 - 识别屏幕元素并精准点击 |
| ✅ 自动敲键盘 - 输入文字、执行快捷键 |
| ✅ 自主思考决策 - 根据任务目标规划操作步骤 |
| ✅ 执行复杂任务 - 浏览网页、编辑文档、整理文件等 |

△ Agent-S 在 GitHub 上获得 9.4K Star

|---------------------------------------------------------------|
| **🏆 首个超越人类!**Agent-S 在 OSWorld 基准测试中达到 72.60% 的成功率,首次超越人类水平。 |

项目信息 详情
GitHub 地址 github.com/simular-ai/Agent-S
支持平台 Windows / macOS / Linux
开源协议 Apache 2.0
Star 数量 9.4K+

|---|
| |

📋 环境要求

在安装之前,请确保您的电脑满足以下条件:

要求 说明
操作系统 Windows 10+、macOS 10.15+、Ubuntu 20.04+
Python 3.8 或更高版本
Git 用于克隆代码仓库
API 密钥 OpenAI / Anthropic / Hugging Face(至少一个)

|-------------------------------------------------------------------|
| **⚠️ Linux 用户注意:**建议直接在系统环境下操作,避免使用 conda 环境,因为可能与 pyatspi 库产生冲突。 |

|---|
| |

⚙️ 安装步骤

|---|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 克隆代码仓库 打开终端,执行以下命令: |---------------------------------------------------------------------| | git clone https://github.com/simular-ai/Agent-S.git cd Agent-S | |

|---|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 2 | 创建虚拟环境(推荐) 为了避免依赖冲突,建议创建独立的虚拟环境: |----------------------------------------------------------------------------------------------------------------------------------------| | # 创建虚拟环境 python -m venv venv # 激活虚拟环境(Windows) venv\Scripts\activate # 激活虚拟环境(macOS / Linux) source venv/bin/activate | |

|---|----------------------------------------------------------------------------|
| 3 | 安装依赖包 使用 pip 安装: |--------------------------| | pip install gui-agents | |

|---|
| |

🔑 配置 API 密钥

Agent-S 需要调用大语言模型 API 来实现智能决策。您需要至少配置以下一个 API 密钥:

服务商 推荐模型
OpenAI GPT-4o
Anthropic Claude 3.5 Sonnet
Hugging Face 开源模型

Windows 设置环境变量:

|---------------------------------------------------------------------------------------------------|
| $env:OPENAI_API_KEY="sk-your-api-key-here" $env:ANTHROPIC_API_KEY="sk-ant-your-api-key-here" |

macOS / Linux 设置环境变量:

|-------------------------------------------------------------------------------------------------------|
| export OPENAI_API_KEY="sk-your-api-key-here" export ANTHROPIC_API_KEY="sk-ant-your-api-key-here" |

|---|
| |

💻 命令行使用

安装完成后,您可以通过 gui-agents 命令来启动 Agent-S:

基本用法:

|--------------------------------------------------|
| gui-agents --instruction "打开计算器,计算 123 乘以 456" |

任务示例:

任务类型 示例指令
应用操作 "打开记事本,写入 Hello World 并保存"
网页浏览 "打开浏览器,搜索 Python 教程"
文件管理 "创建一个名为 test 的文件夹"
复杂任务 "打开 Excel,创建包含姓名和年龄的表格"

|---------------------------------------------------------------------|
| **⚠️ 安全提醒:**Agent-S 会直接在您的电脑上执行操作。请确保在安全可控的环境下运行,并时刻监控其行为,避免执行危险操作。 |

|---|
| |

❓ 常见问题

Q1: 安装时提示 pip 找不到包?

确保您使用的是 Python 3.8+ 版本,并且已激活正确的虚拟环境。可以使用 python --version 检查版本。

Q2: 运行时提示 API Key 未配置?

请检查环境变量是否正确设置。重启终端后环境变量才会生效。

Q3: Agent-S 操作速度很慢?

这可能是因为网络延迟导致 API 调用较慢,或任务过于复杂需要多步规划。可以尝试使用更快的模型。

Q4: 如何停止正在运行的任务?

按 Ctrl + C 可以中断当前任务。建议在任务执行期间保持监控,随时准备中断。

|---------------------------------------------------------------------|
| IT超新鲜 专注AI原理可视化科普,用动画讲清楚复杂技术! GitHub: github.com/simular-ai/Agent-S |

相关推荐
Yao.Li21 分钟前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦24 分钟前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工2 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114247 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠7 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光7 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好7 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力8 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用