ego lite:让 AI Agent 操作浏览器快 3 倍的秘密 ⭐

ego lite:让 AI Agent 操作浏览器快 3 倍的秘密 ⭐

前言

如果你正在使用 Claude Code、Codex 或其他 AI 编程助手,你可能遇到过这样的痛点:

  • 资源消耗巨大:让 AI Agent 操作浏览器时,每个任务都要启动一个独立的 Chromium 实例,6 个并发任务就吃掉 15GB 内存
  • 登录态难复用:Agent 需要重新登录每个网站,或者手动导入 cookie,体验糟糕
  • 窗口满天飞:Agent 执行任务时会抢占你的标签页,或者弹出一堆新窗口,严重干扰正常工作
  • 性能瓶颈:Agent 和浏览器之间反复来回通信,一个简单任务也要几十秒

今天要介绍的 ego lite,就是专门为解决这些问题而生的。

来看一组对比数据:

方案 内存增加 进程数 启动耗时
传统方案(独立浏览器实例 + profile 复制) 约 15 GB 约 84 个 约 2.5 秒
ego lite Space 约 0.9 GB 约 6 个 约 0.6 秒

性能提升:内存节省 94%,启动速度快 4 倍。

本文将带你快速上手 ego lite,让你的 AI Agent 高效、安全地操作浏览器。


一、ego lite 是什么?

ego lite 是一款为你和 AI Agent 协同工作而设计的 Chromium 浏览器。

它基于 Chromium 内核深度定制,与 Chrome 完全兼容------你的插件、历史记录、登录状态都可以无缝迁移。但它多了一项核心能力:让 AI Agent 在独立的工作空间(Space)中并行执行任务,与你共用登录态,但不会打扰你正在使用的标签页。

三大核心概念

ego lite 的设计围绕三个核心概念展开:

1. Space(并行工作空间)

Space 是 ego lite 浏览器里的独立工作区。

  • 不是新窗口、不是新 Profile、也不是 headless 模式
  • 而是同一个浏览器进程内的分区
  • Agent 在 Space 里执行任务,你继续用你的标签页,互不干扰
  • 可以同时运行多个 Space,每个对应一个任务

工作流程:

复制代码
你的标签页                    Agent Space 1              Agent Space 2
  ↓                              ↓                         ↓
正常浏览文章                  操作 GitHub Issues        抓取竞品数据
  ↓                              ↓                         ↓
不受任何打扰                  独立的 cookie 环境        独立的 cookie 环境

你可以随时点击右上角的 Space 按钮,切换到 Agent 的工作区,查看它在做什么,或者接管操作。

这种设计的好处:

  • ✅ 你继续浏览网页,Agent 在后台工作,互不干扰
  • ✅ 多个 Agent 任务可以并行执行(Claude Code 查 Issues,Codex 抓数据)
  • ✅ 每个 Space 有独立的 cookie 和 storage,任务之间不会冲突
  • ✅ 随时可以切换到 Space 查看或接管 Agent 的操作
2. Snapshot(页面快照)

Snapshot 是 Agent 用来"看"网页的方式。

传统方案把整个 HTML 塞给 LLM,一个普通页面就要消耗 30,000 tokens。ego lite 的 Snapshot 基于浏览器的 accessibility tree(无障碍树),把页面压缩成几百 token 的结构化文本:

perl 复制代码
Page: Example - Log in
URL: https://example.com/login

@1 [heading] "Log in"
@2 [form]
  @3 [input type="email"] placeholder="Email"
  @4 [input type="password"] placeholder="Password"
  @5 [button type="submit"] "Continue"
  @6 [link] "Forgot password?"

Agent 立刻就能知道:

  • @3 是邮箱输入框
  • @4 是密码输入框
  • @5 是提交按钮

然后用 ref 编号操作:fill('@3', 'user@example.com')click('@5')

不用猜 CSS 选择器,不怕 class name 变化,token 消耗降低 90%。

Snapshot vs 完整 HTML 对比:

对比项 完整 HTML Snapshot
Token 数量 30,000+ 200-400
包含内容 所有标签、样式、脚本、隐藏元素 仅可见、可交互元素
可操作性 需要手动解析 DOM 直接使用 @ref
准确性 容易被样式变化影响 基于语义树,稳定性高
支持复杂场景 iframe、shadow DOM 难处理 内核级支持,无缝处理

实际效果: 一个典型的登录页面,完整 HTML 可能需要 30,000 tokens,而 Snapshot 只需要 200-300 tokens,节省 99%

3. ego-browser(自动化运行时)

ego-browser 是 Agent 用来驱动浏览器的命令行工具。

与传统的命令行工具不同,ego-browser 采用 heredoc 脚本模式------Agent 把整个任务流程写在一段 Node.js 代码里,一次性执行:

bash 复制代码
ego-browser nodejs <<'EOF'
// 创建或复用任务空间
await useOrCreateTaskSpace('search github issues')

// 打开页面
await openOrReuseTab('https://github.com/issues', { wait: true })

// 获取页面快照
const snapshot = await snapshotText()
cliLog(snapshot)

// 点击按钮
await click('@21', { label: '查看详情' })

// 输出结果
cliLog('Done!')
EOF

一个 heredoc,一次往返,而不是"跑一条命令、看输出、再跑一条"这样反复来回。

在 Citro Labs 的内部 benchmark 中(对比 Vercel 的 agent-browser),ego lite 在四个复杂任务上的完成时间最高快 3.45 倍,token 消耗也明显更少。

执行模式对比:

less 复制代码
传统 CLI 模式(多次往返):
Agent → 命令1: 打开页面 → 浏览器 → 返回状态
Agent → 命令2: 读取内容 → 浏览器 → 返回 HTML
Agent → 命令3: 点击按钮 → 浏览器 → 返回结果
Agent → 命令4: 获取数据 → 浏览器 → 返回数据
⏱️  4 次往返,每次都要等待和解析

ego-browser heredoc 模式(一次完成):
Agent → heredoc 脚本(包含全部流程)→ 浏览器
                                    ↓
                     一次性执行所有操作
                                    ↓
                          返回最终结果
⏱️  1 次往返,大幅降低延迟和 token 消耗

二、为什么选择 ego lite?

与其他方案的对比

对比维度 ego lite Playwright/Puppeteer AI 浏览器(如 Comet)
兼容的 Agent 任意 Agent CLI(Claude Code、Codex、Cursor 等) 需要自己写代码集成 仅内置 Agent
工作空间隔离 Space 机制,互不打扰 窗口满天飞 仅 Agent 可用,人无法介入
登录态复用 自动继承 Chrome 登录状态 需要手动导入 cookie 仅内置 Agent 可用
资源消耗 6 并发仅增加 0.9GB 内存 6 并发增加约 15GB 内存 云端运行,受网络限制
操作模式 Code-based(写代码) Code-based(写代码) CLI-based(命令行)
页面理解 高质量 Snapshot(几百 token) 读取完整 HTML(几万 token) 依赖 LLM 视觉能力

架构差异示意:

scss 复制代码
传统方案(Playwright/Puppeteer):
┌─────────────┐  ┌─────────────┐  ┌─────────────┐
│  Chrome 1   │  │  Chrome 2   │  │  Chrome 3   │
│  (2.5 GB)   │  │  (2.5 GB)   │  │  (2.5 GB)   │
│  复制 Profile │ │  复制 Profile │ │  复制 Profile │
└─────────────┘  └─────────────┘  └─────────────┘
      ↑               ↑               ↑
   任务 1           任务 2           任务 3
   
ego lite 方案:
┌─────────────────────────────────────┐
│         ego lite (1 个进程)          │
│  ┌────────┐  ┌────────┐  ┌────────┐ │
│  │Space 1 │  │Space 2 │  │Space 3 │ │
│  │(隔离)  │  │(隔离)  │  │(隔离)  │ │
│  └────────┘  └────────┘  └────────┘ │
│    共享 Profile 和登录态              │
└─────────────────────────────────────┘
      ↑          ↑          ↑
   任务 1      任务 2      任务 3

核心优势

1. 真正的人机协作
  • Agent 在后台 Space 里跑任务,你继续浏览网页,互不抢焦点
  • 遇到验证码、支付、授权时,Agent 暂停等你接管
  • 任务完成后 Space 保留,方便检查 Agent 的操作路径
2. 极致的性能优化
  • 内存节省 94%:所有 Agent 任务共用一个浏览器进程
  • 启动速度快 4 倍:不需要启动新的 Chromium 实例
  • Token 消耗降低 90%:Snapshot 比完整 HTML 精简得多
3. 开箱即用的登录态
  • 自动迁移 Chrome 的 cookie、历史记录、插件、Profile
  • Agent 可以直接访问需要登录的网站(Gmail、GitHub、Notion 等)
  • 不需要手动导入 cookie 或重新登录
4. 任意 Agent 都能接入

支持所有主流 AI 编程工具:

  • ✅ Claude Code
  • ✅ OpenAI Codex
  • ✅ Cursor
  • ✅ Continue
  • ✅ Gemini CLI
  • ✅ Hermes Agent
  • ✅ 自定义 Agent

只需要在 Agent 里输入 /ego-browser,就能激活 ego lite 的浏览器能力。


三、快速上手:2 分钟完成第一个任务

步骤 1:安装 ego lite

目前 ego lite 支持 macOS(Windows 和 Linux 在规划中)。

  1. 前往 ego lite 官网 下载 DMG 文件
  2. 打开 DMG,将 ego lite 拖入应用程序文件夹
  3. 启动 ego lite,完成 onboarding

首次启动时,ego lite 会:

  • 扫描你机器上已安装的 Agent(Claude Code、Codex 等)
  • 自动安装 ego-browser skill 到对应目录
  • 询问是否迁移浏览器数据(Chrome 的登录态、cookie、扩展、Profile)

✅ 确认迁移后,你的登录状态会被完整继承,Agent 可以直接复用。

图 1:完成 onboarding 后的 ego lite 欢迎页面

步骤 2:激活 ego-browser skill

Codex 为例(Claude Code、Cursor 等操作类似):

在 Codex 的对话框里输入:

bash 复制代码
/ego-browser

图 2:在 Codex 中激活 ego-browser skill

这会激活 ego-browser skill。如果你的 Agent 有权限设置,建议设为 Full access,因为启动 ego lite 需要沙箱外应用执行权限。

图 3:将权限设置为 Full access 以启动 ego lite

步骤 3:运行你的第一个任务

把下面这段话粘贴到 Agent 对话框,回车发送:

python 复制代码
Use ego-browser. Please open the blog pages of OpenAI and Anthropic, 
check if there is any noteworthy information, and quickly summarize 
the main points of the latest articles for me.

Agent 会自动完成以下操作:

  1. 在 ego lite 中创建一个新的 Space
  2. 打开 OpenAI 和 Anthropic 的博客页面
  3. 读取最新文章的 Snapshot
  4. 提取关键信息并生成摘要
  5. 返回结果到对话框

整个过程中,你的浏览器标签页不会被打扰。

步骤 4:查看 Agent 的工作过程

如果你好奇 Agent 在干什么,点击 ego lite 右上角的 Space 按钮,进入 Space 管理面板:

图 4:ego lite 的 Space 管理面板,蓝色光晕表示 Agent 正在工作

带蓝色光晕的 Space 就是 Agent 正在操作的工作区。你可以:

  • 点击进入查看 Agent 打开了哪些页面
  • 接管操作(比如处理验证码、登录)
  • 停止任务

这就是 ego lite 的核心价值:让 Agent 在后台安静地跑流程,只在需要登录、验证或检查结果时把你拉进来协作,不打断你原本正在做的事。


四、进阶用法:实战场景

场景 1:自动填写表单

任务描述:

swift 复制代码
Use ego-browser. Open https://example.com/signup, fill in the form with:
- Email: test@example.com
- Password: TestPass123
- Confirm Password: TestPass123

Stop before clicking the submit button and let me review.

ego-browser 脚本示例:

bash 复制代码
ego-browser nodejs <<'EOF'
await useOrCreateTaskSpace('fill signup form')

await openOrReuseTab('https://example.com/signup', { wait: true })

const snapshot = await snapshotText()
cliLog(snapshot)

// 填写表单
await fillInput('@3', 'test@example.com')
await fillInput('@4', 'TestPass123')
await fillInput('@5', 'TestPass123')

cliLog('Form filled. Please review before submitting.')
EOF

场景 2:批量抓取数据

任务描述:

css 复制代码
Use ego-browser. Go to my GitHub notifications, filter PRs that need my review,
and list the repository name, title, and link. Don't mark as read.

ego-browser 脚本示例:

bash 复制代码
ego-browser nodejs <<'EOF'
await useOrCreateTaskSpace('check github notifications')

await openOrReuseTab('https://github.com/notifications', { wait: true })

// 获取快照
const snapshot = await snapshotText()

// 提取需要 review 的 PR
const data = await js(`(() => {
  const items = [...document.querySelectorAll('.notification-list-item')]
  return items
    .filter(el => el.innerText.includes('review requested'))
    .map(el => ({
      repo: el.querySelector('.repo').innerText,
      title: el.querySelector('.title').innerText,
      link: el.querySelector('a').href,
    }))
})()`)

cliLog(JSON.stringify(data, null, 2))
EOF

场景 3:登录后台并导出数据

任务描述:

sql 复制代码
Use ego-browser. Open the admin dashboard at https://admin.example.com,
go to the Orders page, filter orders from yesterday, and download the CSV.
Stop if you encounter login verification.

因为 ego lite 继承了你的 Chrome 登录状态,Agent 可以直接访问已登录的后台,无需重新登录。


五、最佳实践与注意事项

✅ 推荐做法

  1. 明确任务边界

    • 告诉 Agent 哪些操作允许(读取、筛选)
    • 哪些操作禁止(删除、发布、付款)
    • 遇到验证码、支付时暂停
  2. 利用 Snapshot 节省 token

    • 优先使用 @N ref 操作元素
    • 页面变化后重新拍快照
    • 不要长期保存 ref 编号
  3. 复用 Task Space

    • 同一任务用同一个 Space,避免重复创建
    • 任务完成后用 completeTaskSpace() 标记完成
    • 不需要的 Space 用 closeTaskSpace() 关闭
  4. 检查 Agent 的结果

    • 切到 Space 查看 Agent 访问的页面
    • 验证返回的数据(标题、链接、金额)
    • 下载任务检查本地文件路径

⚠️ 注意事项

  1. @N ref 的有效范围

    • ref 编号仅对当前 Snapshot 有效
    • 页面跳转、刷新、DOM 重渲染后需要重新拍快照
    • 需要稳定引用时,使用 loc=... selector 或 CSS selector
  2. heredoc 脚本的执行环境

    • heredoc 体内是 Node.js 进程
    • js(...) 内才是浏览器页面上下文
    • 两者不要混用
  3. 处理需要人工介入的场景

    • 短信验证码、扫码登录、硬件密钥
    • 支付、下单、转账、退款
    • 删除、发布、归档等不可逆操作
    • 授权第三方应用

最佳实践:在任务开始时明确边界。

vbnet 复制代码
Use ego-browser. [任务描述]

Rules:
- Read-only, don't modify anything
- Stop before submitting any form
- Stop if you encounter verification

六、更多应用场景

ego lite 可以用于任何需要在浏览器中完成的工作:

社交媒体自动化

  • 回复推文、quote-tweet
  • 抓取互动数据、监控提及
  • 排队发布内容
  • 支持:X、LinkedIn、Threads、Reddit、Instagram、Facebook

求职和招聘

  • 在 LinkedIn、Wellfound、YC Startup Jobs 上搜索岗位
  • 过滤结果、点击 Apply
  • 自动填写 ATS 表单(AshbyHQ、Greenhouse、Lever、Workday)
  • 在正式提交前停下等你确认

SaaS 后台操作

  • HubSpot、Salesforce、Notion、Airtable、Linear
  • Stripe、GA4、Search Console、Mixpanel
  • 拉取报表、刷新仪表板、批量更新字段
  • 定时任务自动化

电商和预订

  • Amazon 比价、Costco 批量下单
  • Redfin、Zillow 房源筛选
  • 机票、酒店、餐厅预订
  • 自动填写繁琐表单,支付前停下

内部工具和测试

  • 访问 admin 后台、staging 环境
  • QA 流程自动化
  • 继承真实登录态,不需要导入 cookie

七、常见问题

Q1: Space 会影响我当前的标签页吗?

不会。 Agent 在 Space 中操作,你的标签页、焦点、鼠标都不受影响。

Q2: 任务结束后标签页会自动关闭吗?

不会。 Space 保留相关标签页,方便你检查 Agent 的访问路径和结果。

Q3: 什么时候不需要 Space?

只是搜索公开资料、总结公开网页,不需要登录或网页操作时,普通 web search 更合适。

Q4: ego lite 是否收费?

免费下载,没有订阅费,没有按任务计费。 你用自己的 Agent CLI 和自己的模型 API key 即可。

Q5: 数据隐私如何保证?

所有浏览数据都留在本地。 从 Chrome 迁移的密码、cookie、历史记录、书签、扩展、Profile 都不会上传。页面内容由你自己的 Agent 读取和操作,ego lite 只负责浏览器和桥接。

Q6: 支持哪些操作系统?

目前支持 macOS。Windows 和 Linux 在路线图上。


八、总结

ego lite 是一款专为 AI Agent 和人类协同工作设计的浏览器,核心优势:

  1. Space 并行工作空间:Agent 在后台跑任务,你继续浏览网页,互不干扰
  2. Snapshot 高效页面快照:token 消耗降低 90%,Agent 理解网页更快更准
  3. ego-browser 自动化运行时:一次 heredoc 完成整个任务,性能提升 3 倍
  4. 开箱即用的登录态:自动继承 Chrome 登录状态,无需重新登录
  5. 兼容所有主流 Agent:Claude Code、Codex、Cursor、Continue 等全支持

如果你正在使用 AI 编程工具,并且需要让 Agent 操作浏览器,ego lite 是目前最快、最省资源、最易用的解决方案。


延伸阅读


关于作者

本文基于 ego lite 官方文档整理,旨在帮助 AI Agent 用户快速上手浏览器自动化。如有问题或建议,欢迎在评论区讨论。


📌 行动建议:

  1. 下载 ego lite:lite.ego.app
  2. 完成 onboarding,迁移浏览器数据
  3. 在你的 Agent(Claude Code/Codex)里输入 /ego-browser
  4. 运行第一个任务,体验 Space + Snapshot 的魔力

祝你玩得开心!🚀

相关推荐
名不经传的养虾人2 小时前
从0到1:企业级AI项目迭代日记 Vol.47|从“能说”到“能上手”
大数据·人工智能·ai编程·企业ai·多agent协作
lulu12165440782 小时前
OpenRouter Fusion 多模型融合架构深度拆解:预算级模型组团打平 Fable 5,多模型协作才是 AGI 的正确打开方式?
java·人工智能·架构·ai编程·agi
恋猫de小郭2 小时前
Redis 作者反驳「中国模型之所以强,是因为通过 API 蒸馏了美国模型」
前端·人工智能·ai编程
OpenTiny社区3 小时前
这次更新太良心!GenUI SDK v1.2.0 轻量化 + 稳流式 + 超强 Playground
前端·vue.js·ai编程
程序员黑豆3 小时前
AI全栈开发系列开篇:从Java全栈到AI应用实战
前端·ai编程·全栈
程序员鱼皮3 小时前
提示词工程已死,Loop Engineering 称王!保姆级教程 + 项目实战
前端·后端·ai编程
自律懒人3 小时前
AI编程Benchmark 90%≠能上线——企业级项目用Cursor和Claude Code踩的4个真实坑
ai编程
打呵欠的猫3 小时前
AI 生成的代码你敢直接上线吗?我总结出 3 条铁律
前端·ai编程
春日见3 小时前
vscode的AI编程插件推荐:
大数据·ide·vscode·算法·机器学习·编辑器·ai编程