懂事的Agent已经自己看屏幕干活了!效率起飞~

大家好,我是袋鼠帝

很多时候,你跟AI发布任务前,需要用大量的篇幅介绍任务背景,需求,目标,等等等等...

这真的贼麻烦,如果新开一个窗口,或者换一个Agent,你还得再说一遍🤦‍♂️。。。

如果AI有足够多的上下文,或者说拥有我的记忆,那么我每次给它安排任务之前,都不需要重复交代背景,甚至任务说明都可以省略,只需要一句简单的话,它就能秒懂。

不敢想,这能省下我多少时间。

想彻底摆脱每次Prompt都要交代背景、自我介绍的困扰吗?

最近我发现一个让我非常惊喜的Agent工具,就能够拥有我工作的那部分记忆。

它能持续读取我的屏幕作为上下文记忆,这个过程是全自动的,我完全无感。

比如我问它,周六那天,我干了些啥?

我勒个豆,我周六一整天的工作+学习,它都清楚,连我晚上看《说唱巅峰对决》都知道!!

这个Agent是我之前刷X看到的,叫 vida。

很明显,vida能够连续读我的屏幕。

这件事情非常有意思,因为AI可以读取屏幕,意味着它可以开始看到我的连续的工作过程,我的电脑使用习惯,我的工作所需的一切上下文(我的工作记忆)。

*当然,工作学习就行了,别看些有的没的,不然会造成上下文污染..

*

对,就是上下文(记忆),目前Agent懂不懂你,好不好用,很大程度上都受上下文影响。

而且,当AI有了你日常的全量上下文(记忆),那么下次你给它发布任务,就基本上不需要交代背景,目标啥的了,因为它每天都盯着你的屏幕,记得你在电脑上干的一切事情。

可以说,它跟你完全就是心照不宣,心有灵犀 🤣

比如说,简单的聊天场景,有些人发的消息,实在不知道咋回。大家应该都遇到过吧。

如果你经常跟某个人,或者在某个群聊里面聊天,vida就会记住一些你们对话的习惯,知道你们的关系。

根据上下文,可以给出非常适合的下一句回复。

比如跟客户,跟新加的好友,跟甲方。甚至,跟你有好感的异性,等等...

vida有个快捷键,我这里是直接截图一键让它帮我生成回复的。还挺方便,比你自己手动截图再粘贴到其他Agent更方便(后面会细说)

Vida还知道我刚刚在写vida这篇文章~

你看,我完全不需要跟它说我在写哪篇文章,也不需要把还未完成的文章内容丢给它,我的描述巨简单:"正在写的这篇文章"。

因为它就在我电脑里面看着我写呢,整个上下文它都知道。

然后我又让它复盘了一下我昨天的工作效率,不得不说,回答的真准啊。

md,周六晚上本来想把这篇文章搞定的,结果打开电脑,拖延症犯了,正好我超喜欢的说唱节目更新了,果断先看起了电视🤣

除了屏幕上下文外,vida还有一个小设计非常打动我,而且我觉得贼实用。

就是它有很多快捷键(可自定义),可以很方便的随时召唤vida出来工作。

比如我双击option就会出现vida的小悬浮窗。然后它会捕捉到我当前屏幕,根据屏幕看到的信息(如下视频是浏览器中的一篇文章),提供Prompt建议,如果觉得ok,按tab键补全。

然后它就开始总结了。最让我惊讶的是,当前屏幕是没法看到文章的具体内容的,但是它能根据所看到的去推理,去查找,最终找到了文章的完整内容。

当然,如果不想让它麻烦的去找,还可以提前全选文章,然后再双击option,vida就是直接拿到完整的文章上下文。

Option + X可以开始语音输入,用嘴对话。

比如我打开了我的X主页,然后开始语音输入,让他帮我分析一下我的X主页怎么样,要怎么去做X。

他吭哧吭哧分析了半天,跑了一分半,我一开始还觉得他怎么这么慢?

结果他分析出来之后,我发现内容贼详细。

他不仅看了截屏的我都X的主页内容,还专门去浏览器打开了我的X主页(整个过程无感),查看了我最近发布的一些推文,并根据这些推文专门给了一些建议,我觉得还是很中肯的,特别是去大V发布的内容下面去评论、去截流。

另外,我经常使用它的截图提问功能。

这玩意儿好用的地方就在于,你按一个快捷键立马截图,截完图之后,这个截图直接就到vida对话框了,非常方便。

我经常用于一些没法选中、没法复制的英文的翻译,我就直接截图,然后让它翻译,就很快很方便。

默认的option + 3快捷键,可以直接自动截取当前全屏到悬浮对话框,就能又省一步手动截图~ 懒人狂喜。

上下文对于AI来说的非常重要,但是收集上下文这件事情也是非常困难且繁琐,而且麻烦的一件事情。

Vida能通过持续获取屏幕快照,记住我的日常工作流程,还真的挺方便的。

另外,它还带有自己的知识库,对话中的一切信息都可以手动收集到知识库中。

我目前用vida的时间还不够长,也就用了几天,所以它的上下文其实还不算特别丰富。

随着时间的推移,它应该会越来越懂我。

当有了足够多的上下文,它可能将成为这个世界上最懂我的"人"。

到那时候,我的一些重复的工作,应该也可以轻松地让它帮我沉淀成各种自动化的工作流。

当然这里面又涉及到隐私的问题。

Vida有承诺云端零留存,历史记录保存在本地,也不会用我们的数据来进行模型训练。

*但如果你的工作是高度私密性、高度机密的,那你最好还是不要使用这个工具。

*

另外Vida现在可以免费试用,大家可以去 vida.app 下载玩一玩。

我还留意到,vida发起了一个公开挑战,要为100个场景交付世界最好的工作结果,要比其他任何AI都更可靠的为用户主动完成工作。

不得不说,有了完整上下文加持的vida,野心非常大。

另外,Codex里面其实也有这个功能。不过仅限 macOS 系统,且必须是 ChatGPT Pro 订阅用户才能体验。开启的话,也会消耗更多的token额度。英国、欧洲等地区暂未开放这块能力。Vida目前也是只支持macOS系统,不过我看官网上Windows版也快了(估计7月会出)我觉得是否开启使用读取屏幕的能力,在于个人,如果你想让你的Agent获取更多的上下文,变得好用,就得把信息开放出来。如果不愿意开放,那就要接受Agent跟你存在很多信息差。

《孙子兵法》里有句话,"知彼知己,百战不殆"。

放在AI身上也成立,AI不知道你,它就容易瞎搞。

它天天盯着你的屏幕,了解你所有的工作上的事情,那就是知己,很多时候就不需要你主动给Context,只需要简单的一句话。

对于我来说,我喜欢开放,我希望我的Agent能更多的了解我。

这个vida我还会持续用。等过段时间它对我更熟悉了,可能会再跟大家分享一些aha moment~

所以,当Agent拥有你的记忆后,你最想让它干嘛?欢迎评论区留言😄

我是袋鼠帝,一个致力于帮你把AI变成生产力的博主。我们下期见~*

*

能看到这里的都是凤毛麟角的存在!

如果觉得不错,随手点个赞、在看、转发三连吧~

如果想第一时间收到推送,也可以给我个星标⭐

谢谢你耐心看完我的文章~

相关推荐
threerocks13 小时前
一用一个不吱声的视频解析 Skill,你值得拥有
aigc·ai编程
吴佳浩14 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
后端小肥肠15 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao15 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
JEECG官方16 小时前
Claude Code Loop 快速入门:从一行命令到自动迭代
aigc
AlbertZein17 小时前
别只盯着最强模型了,Agent 场景更该看这类 Flash 档模型
aigc·openai·ai编程
ZzT17 小时前
公司用 AI 筛简历,他写了个 AI 帮你挑公司
面试·aigc·ai编程
leeyi19 小时前
中间件系统:在 Agent 执行流中插入自定义逻辑
aigc·agent·ai编程