通过AWS Bedrock探索 Claude 的虚拟桌面魔力:让 AI 代替你动手完成任务!

前言

大家好,昨夜Anthropic 发布了更新。现在 Claude 3.5 Sonnet(V2) 和 Claude 3.5 Haiku,以及名为 computer use 的新功能已经作为公开测试版发布了。

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ AnthropicA refreshed, more powerful Claude 3.5 Sonnet, Claude 3.5 Haiku, and a new experimental AI capability: computer use.https://www.anthropic.com/news/3-5-models-and-computer-use关于新模型,我打算稍后进行验证。这次更新给我带来最大震撼的是 computer use操作电脑完成复杂任务的能力。AWS的bedrock上已同步更新。让我们看看 computer use都能做些什么吧!

什么是 Computer Use?

简单来说,Computer Use 是一种通过 Claude 操作虚拟桌面环境来完成特定任务的功能。你只需通过提示词(prompt)告知任务内容,Claude 就会模拟人类的操作来解决问题。比如,它可以操控浏览器、编辑电子表格等,像是一个"虚拟助理"代替你操作电脑。这种体验让人仿佛拥有了一个自动化的助手来完成日常工作。

模型启用步骤

在开始使用前,需要在 Amazon Bedrock 上启用模型。以下是操作步骤:

  1. 切换区域到俄勒冈州后进入 Amazon Bedrock 控制台,
  2. 导航到 模型访问 (Model Access)。
  3. 在列表中找到 Claude 3.5 Sonnet v2
  4. 点击提交按钮,完成模型的激活。

目前,Claude 3.5 Sonnet v2 仅在俄勒冈区域可用。

尝试使用 computer use

在以下的代码库中提供了 QuickStarts ,我们将使用 Bedrock 进行尝试。

anthropic-quickstarts/computer-use-demo at main · anthropics/anthropic-quickstarts · GitHubA collection of projects designed to help developers quickly get started with building deployable applications using the Anthropic API - anthropic-quickstarts/computer-use-demo at main · anthropics/anthropic-quickstartshttps://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

首先进行一些准备工作。

复制代码
# 克隆代码库
git clone https://github.com/anthropics/anthropic-quickstarts

# 切换目录
cd anthropic-quickstarts/
cd computer-use-demo/

# 配置 AWS CLI
# 使用通过 aws configure 配置的个人资料
export AWS_PROFILE=<指定要使用的个人资料>

如果你不知道 AWS_PROFILE如何创建。可以参考下面步骤。

1导航到IAM >用户>你使用的用户下创建访问密钥

2选择AWS之外运行的应用程序,下一步

3标签为可选性,可根据自己意愿决定是否填写。(建议填写方便管理)

4.记录好自己的密钥。后面的设置需要用到。

5.命令行执行如下命令创建PROFILE

复制代码
aws configure --profile <your_profile_name>

6.输入刚刚生成的内容完成profile创建

完成上面的步骤后,我们就可以启动Docker了

复制代码
docker run \
    -e API_PROVIDER=bedrock \
    -e AWS_PROFILE=$AWS_PROFILE \
    -e AWS_REGION=us-west-2 \
    -v $HOME/.aws/credentials:/home/computeruse/.aws/credentials \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

一旦成功运行后,访问 http://localhost:8080,你会看到一个带有虚拟浏览器和聊天界面的 UI。这种界面通常用于模拟交互环境,让用户可以通过 Claude 等模型直接与虚拟桌面进行交互,例如自动化操作浏览器或处理文件。

通过在这个 聊天 UI 中输入一个简单的提示,比如 "google查询东京 天气,记录下周最高,最低气温,天气。查询结果记录在excel里。"

Claude 能够在执行任务时识别当前桌面状态,并基于这些信息决定如何完成任务。它似乎能够以像素级别感知桌面环境,从而更精确地理解当前界面和内容的状态。此外,它通过类似 Tool use 的方式,发出点击、鼠标移动等指令,以模拟用户的操作。这种能力使得 Claude 可以像人类一样操作虚拟桌面,完成复杂的任务。

他会自动打开浏览器去google里查询东京的天晴状况。

最后,Claude 自动打开了 LibreOffice ,并将收集到的信息整理成了 Excel 表格 。令人惊叹的是,即使我没有特别指示,它也完成了保存操作。这展示了 Claude 在执行任务时的智能化处理能力和高效工作流。

结语

由于这是一个沙盒环境 ,所以操作非常简单,可以轻松尝试各种功能!即使在当前阶段,Claude 已经能够胜任许多简单任务 ,给人留下了深刻印象。而且,考虑到它目前仍处于公开测试阶段,未来的发展更加令人期待!

想尝鲜又不想搭建环境?试试开发者社区的多模一站通吧!直接体验各种模型的超能力~
亚马逊云科技开发者社区

相关推荐
火山引擎开发者社区6 小时前
火山 DTS 正式支持 MySQL 同步到 Milvus , 解决业务库到向量库最后一公里
人工智能
火山引擎开发者社区7 小时前
@开发者,提前解锁 FORCE 原动力大会五大看点,限时赢取门票福利
人工智能
火山引擎开发者社区7 小时前
这个 Skill 让 Agent 从会理解到会执行,补齐移动 APP 执行最后一公里
人工智能
火山引擎开发者社区11 小时前
Agent Plan、Coding Plan限时优惠:2.5折畅享多模型!
人工智能
冬奇Lab11 小时前
AI Workflow 定义的四次演进:从 Markdown 到 JS 脚本,再到分布式多 Agent
javascript·人工智能·agent
冬奇Lab11 小时前
每日一个开源项目(第136篇):OpenMemory - 给 AI Agent 真正的认知记忆引擎
人工智能
黄啊码12 小时前
【黄啊码】微信 AI 把聊天功能和 Vibe Coding打通了,创业者:我又白干了
人工智能
IT_陈寒13 小时前
React的useState居然还有这种坑?我差点删库跑路
前端·人工智能·后端