ego lite:让 AI Agent 操作浏览器快 3 倍的秘密 ⭐
前言
如果你正在使用 Claude Code、Codex 或其他 AI 编程助手,你可能遇到过这样的痛点:
- 资源消耗巨大:让 AI Agent 操作浏览器时,每个任务都要启动一个独立的 Chromium 实例,6 个并发任务就吃掉 15GB 内存
- 登录态难复用:Agent 需要重新登录每个网站,或者手动导入 cookie,体验糟糕
- 窗口满天飞:Agent 执行任务时会抢占你的标签页,或者弹出一堆新窗口,严重干扰正常工作
- 性能瓶颈:Agent 和浏览器之间反复来回通信,一个简单任务也要几十秒
今天要介绍的 ego lite,就是专门为解决这些问题而生的。
来看一组对比数据:
| 方案 | 内存增加 | 进程数 | 启动耗时 |
|---|---|---|---|
| 传统方案(独立浏览器实例 + profile 复制) | 约 15 GB | 约 84 个 | 约 2.5 秒 |
| ego lite Space | 约 0.9 GB | 约 6 个 | 约 0.6 秒 |
性能提升:内存节省 94%,启动速度快 4 倍。
本文将带你快速上手 ego lite,让你的 AI Agent 高效、安全地操作浏览器。
一、ego lite 是什么?
ego lite 是一款为你和 AI Agent 协同工作而设计的 Chromium 浏览器。
它基于 Chromium 内核深度定制,与 Chrome 完全兼容------你的插件、历史记录、登录状态都可以无缝迁移。但它多了一项核心能力:让 AI Agent 在独立的工作空间(Space)中并行执行任务,与你共用登录态,但不会打扰你正在使用的标签页。
三大核心概念
ego lite 的设计围绕三个核心概念展开:
1. Space(并行工作空间)
Space 是 ego lite 浏览器里的独立工作区。
- 不是新窗口、不是新 Profile、也不是 headless 模式
- 而是同一个浏览器进程内的分区
- Agent 在 Space 里执行任务,你继续用你的标签页,互不干扰
- 可以同时运行多个 Space,每个对应一个任务
工作流程:
你的标签页 Agent Space 1 Agent Space 2
↓ ↓ ↓
正常浏览文章 操作 GitHub Issues 抓取竞品数据
↓ ↓ ↓
不受任何打扰 独立的 cookie 环境 独立的 cookie 环境
你可以随时点击右上角的 Space 按钮,切换到 Agent 的工作区,查看它在做什么,或者接管操作。
这种设计的好处:
- ✅ 你继续浏览网页,Agent 在后台工作,互不干扰
- ✅ 多个 Agent 任务可以并行执行(Claude Code 查 Issues,Codex 抓数据)
- ✅ 每个 Space 有独立的 cookie 和 storage,任务之间不会冲突
- ✅ 随时可以切换到 Space 查看或接管 Agent 的操作
2. Snapshot(页面快照)
Snapshot 是 Agent 用来"看"网页的方式。
传统方案把整个 HTML 塞给 LLM,一个普通页面就要消耗 30,000 tokens。ego lite 的 Snapshot 基于浏览器的 accessibility tree(无障碍树),把页面压缩成几百 token 的结构化文本:
perl
Page: Example - Log in
URL: https://example.com/login
@1 [heading] "Log in"
@2 [form]
@3 [input type="email"] placeholder="Email"
@4 [input type="password"] placeholder="Password"
@5 [button type="submit"] "Continue"
@6 [link] "Forgot password?"
Agent 立刻就能知道:
@3是邮箱输入框@4是密码输入框@5是提交按钮
然后用 ref 编号操作:fill('@3', 'user@example.com')、click('@5')。
不用猜 CSS 选择器,不怕 class name 变化,token 消耗降低 90%。
Snapshot vs 完整 HTML 对比:
| 对比项 | 完整 HTML | Snapshot |
|---|---|---|
| Token 数量 | 30,000+ | 200-400 |
| 包含内容 | 所有标签、样式、脚本、隐藏元素 | 仅可见、可交互元素 |
| 可操作性 | 需要手动解析 DOM | 直接使用 @ref |
| 准确性 | 容易被样式变化影响 | 基于语义树,稳定性高 |
| 支持复杂场景 | iframe、shadow DOM 难处理 | 内核级支持,无缝处理 |
实际效果: 一个典型的登录页面,完整 HTML 可能需要 30,000 tokens,而 Snapshot 只需要 200-300 tokens,节省 99%。
3. ego-browser(自动化运行时)
ego-browser 是 Agent 用来驱动浏览器的命令行工具。
与传统的命令行工具不同,ego-browser 采用 heredoc 脚本模式------Agent 把整个任务流程写在一段 Node.js 代码里,一次性执行:
bash
ego-browser nodejs <<'EOF'
// 创建或复用任务空间
await useOrCreateTaskSpace('search github issues')
// 打开页面
await openOrReuseTab('https://github.com/issues', { wait: true })
// 获取页面快照
const snapshot = await snapshotText()
cliLog(snapshot)
// 点击按钮
await click('@21', { label: '查看详情' })
// 输出结果
cliLog('Done!')
EOF
一个 heredoc,一次往返,而不是"跑一条命令、看输出、再跑一条"这样反复来回。
在 Citro Labs 的内部 benchmark 中(对比 Vercel 的 agent-browser),ego lite 在四个复杂任务上的完成时间最高快 3.45 倍,token 消耗也明显更少。
执行模式对比:
less
传统 CLI 模式(多次往返):
Agent → 命令1: 打开页面 → 浏览器 → 返回状态
Agent → 命令2: 读取内容 → 浏览器 → 返回 HTML
Agent → 命令3: 点击按钮 → 浏览器 → 返回结果
Agent → 命令4: 获取数据 → 浏览器 → 返回数据
⏱️ 4 次往返,每次都要等待和解析
ego-browser heredoc 模式(一次完成):
Agent → heredoc 脚本(包含全部流程)→ 浏览器
↓
一次性执行所有操作
↓
返回最终结果
⏱️ 1 次往返,大幅降低延迟和 token 消耗
二、为什么选择 ego lite?
与其他方案的对比
| 对比维度 | ego lite | Playwright/Puppeteer | AI 浏览器(如 Comet) |
|---|---|---|---|
| 兼容的 Agent | 任意 Agent CLI(Claude Code、Codex、Cursor 等) | 需要自己写代码集成 | 仅内置 Agent |
| 工作空间隔离 | Space 机制,互不打扰 | 窗口满天飞 | 仅 Agent 可用,人无法介入 |
| 登录态复用 | 自动继承 Chrome 登录状态 | 需要手动导入 cookie | 仅内置 Agent 可用 |
| 资源消耗 | 6 并发仅增加 0.9GB 内存 | 6 并发增加约 15GB 内存 | 云端运行,受网络限制 |
| 操作模式 | Code-based(写代码) | Code-based(写代码) | CLI-based(命令行) |
| 页面理解 | 高质量 Snapshot(几百 token) | 读取完整 HTML(几万 token) | 依赖 LLM 视觉能力 |
架构差异示意:
scss
传统方案(Playwright/Puppeteer):
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Chrome 1 │ │ Chrome 2 │ │ Chrome 3 │
│ (2.5 GB) │ │ (2.5 GB) │ │ (2.5 GB) │
│ 复制 Profile │ │ 复制 Profile │ │ 复制 Profile │
└─────────────┘ └─────────────┘ └─────────────┘
↑ ↑ ↑
任务 1 任务 2 任务 3
ego lite 方案:
┌─────────────────────────────────────┐
│ ego lite (1 个进程) │
│ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │Space 1 │ │Space 2 │ │Space 3 │ │
│ │(隔离) │ │(隔离) │ │(隔离) │ │
│ └────────┘ └────────┘ └────────┘ │
│ 共享 Profile 和登录态 │
└─────────────────────────────────────┘
↑ ↑ ↑
任务 1 任务 2 任务 3
核心优势
1. 真正的人机协作
- Agent 在后台 Space 里跑任务,你继续浏览网页,互不抢焦点
- 遇到验证码、支付、授权时,Agent 暂停等你接管
- 任务完成后 Space 保留,方便检查 Agent 的操作路径
2. 极致的性能优化
- 内存节省 94%:所有 Agent 任务共用一个浏览器进程
- 启动速度快 4 倍:不需要启动新的 Chromium 实例
- Token 消耗降低 90%:Snapshot 比完整 HTML 精简得多
3. 开箱即用的登录态
- 自动迁移 Chrome 的 cookie、历史记录、插件、Profile
- Agent 可以直接访问需要登录的网站(Gmail、GitHub、Notion 等)
- 不需要手动导入 cookie 或重新登录
4. 任意 Agent 都能接入
支持所有主流 AI 编程工具:
- ✅ Claude Code
- ✅ OpenAI Codex
- ✅ Cursor
- ✅ Continue
- ✅ Gemini CLI
- ✅ Hermes Agent
- ✅ 自定义 Agent
只需要在 Agent 里输入 /ego-browser,就能激活 ego lite 的浏览器能力。
三、快速上手:2 分钟完成第一个任务
步骤 1:安装 ego lite
目前 ego lite 支持 macOS(Windows 和 Linux 在规划中)。
- 前往 ego lite 官网 下载 DMG 文件
- 打开 DMG,将 ego lite 拖入应用程序文件夹
- 启动 ego lite,完成 onboarding
首次启动时,ego lite 会:
- 扫描你机器上已安装的 Agent(Claude Code、Codex 等)
- 自动安装
ego-browserskill 到对应目录 - 询问是否迁移浏览器数据(Chrome 的登录态、cookie、扩展、Profile)
✅ 确认迁移后,你的登录状态会被完整继承,Agent 可以直接复用。
图 1:完成 onboarding 后的 ego lite 欢迎页面
步骤 2:激活 ego-browser skill
以 Codex 为例(Claude Code、Cursor 等操作类似):
在 Codex 的对话框里输入:
bash
/ego-browser
图 2:在 Codex 中激活 ego-browser skill
这会激活 ego-browser skill。如果你的 Agent 有权限设置,建议设为 Full access,因为启动 ego lite 需要沙箱外应用执行权限。
图 3:将权限设置为 Full access 以启动 ego lite
步骤 3:运行你的第一个任务
把下面这段话粘贴到 Agent 对话框,回车发送:
python
Use ego-browser. Please open the blog pages of OpenAI and Anthropic,
check if there is any noteworthy information, and quickly summarize
the main points of the latest articles for me.
Agent 会自动完成以下操作:
- 在 ego lite 中创建一个新的 Space
- 打开 OpenAI 和 Anthropic 的博客页面
- 读取最新文章的 Snapshot
- 提取关键信息并生成摘要
- 返回结果到对话框
整个过程中,你的浏览器标签页不会被打扰。
步骤 4:查看 Agent 的工作过程
如果你好奇 Agent 在干什么,点击 ego lite 右上角的 Space 按钮,进入 Space 管理面板:
图 4:ego lite 的 Space 管理面板,蓝色光晕表示 Agent 正在工作
带蓝色光晕的 Space 就是 Agent 正在操作的工作区。你可以:
- 点击进入查看 Agent 打开了哪些页面
- 接管操作(比如处理验证码、登录)
- 停止任务
这就是 ego lite 的核心价值:让 Agent 在后台安静地跑流程,只在需要登录、验证或检查结果时把你拉进来协作,不打断你原本正在做的事。
四、进阶用法:实战场景
场景 1:自动填写表单
任务描述:
swift
Use ego-browser. Open https://example.com/signup, fill in the form with:
- Email: test@example.com
- Password: TestPass123
- Confirm Password: TestPass123
Stop before clicking the submit button and let me review.
ego-browser 脚本示例:
bash
ego-browser nodejs <<'EOF'
await useOrCreateTaskSpace('fill signup form')
await openOrReuseTab('https://example.com/signup', { wait: true })
const snapshot = await snapshotText()
cliLog(snapshot)
// 填写表单
await fillInput('@3', 'test@example.com')
await fillInput('@4', 'TestPass123')
await fillInput('@5', 'TestPass123')
cliLog('Form filled. Please review before submitting.')
EOF
场景 2:批量抓取数据
任务描述:
css
Use ego-browser. Go to my GitHub notifications, filter PRs that need my review,
and list the repository name, title, and link. Don't mark as read.
ego-browser 脚本示例:
bash
ego-browser nodejs <<'EOF'
await useOrCreateTaskSpace('check github notifications')
await openOrReuseTab('https://github.com/notifications', { wait: true })
// 获取快照
const snapshot = await snapshotText()
// 提取需要 review 的 PR
const data = await js(`(() => {
const items = [...document.querySelectorAll('.notification-list-item')]
return items
.filter(el => el.innerText.includes('review requested'))
.map(el => ({
repo: el.querySelector('.repo').innerText,
title: el.querySelector('.title').innerText,
link: el.querySelector('a').href,
}))
})()`)
cliLog(JSON.stringify(data, null, 2))
EOF
场景 3:登录后台并导出数据
任务描述:
sql
Use ego-browser. Open the admin dashboard at https://admin.example.com,
go to the Orders page, filter orders from yesterday, and download the CSV.
Stop if you encounter login verification.
因为 ego lite 继承了你的 Chrome 登录状态,Agent 可以直接访问已登录的后台,无需重新登录。
五、最佳实践与注意事项
✅ 推荐做法
-
明确任务边界
- 告诉 Agent 哪些操作允许(读取、筛选)
- 哪些操作禁止(删除、发布、付款)
- 遇到验证码、支付时暂停
-
利用 Snapshot 节省 token
- 优先使用
@Nref 操作元素 - 页面变化后重新拍快照
- 不要长期保存 ref 编号
- 优先使用
-
复用 Task Space
- 同一任务用同一个 Space,避免重复创建
- 任务完成后用
completeTaskSpace()标记完成 - 不需要的 Space 用
closeTaskSpace()关闭
-
检查 Agent 的结果
- 切到 Space 查看 Agent 访问的页面
- 验证返回的数据(标题、链接、金额)
- 下载任务检查本地文件路径
⚠️ 注意事项
-
@Nref 的有效范围- ref 编号仅对当前 Snapshot 有效
- 页面跳转、刷新、DOM 重渲染后需要重新拍快照
- 需要稳定引用时,使用
loc=...selector 或 CSS selector
-
heredoc 脚本的执行环境
- heredoc 体内是 Node.js 进程
js(...)内才是浏览器页面上下文- 两者不要混用
-
处理需要人工介入的场景
- 短信验证码、扫码登录、硬件密钥
- 支付、下单、转账、退款
- 删除、发布、归档等不可逆操作
- 授权第三方应用
最佳实践:在任务开始时明确边界。
vbnet
Use ego-browser. [任务描述]
Rules:
- Read-only, don't modify anything
- Stop before submitting any form
- Stop if you encounter verification
六、更多应用场景
ego lite 可以用于任何需要在浏览器中完成的工作:
社交媒体自动化
- 回复推文、quote-tweet
- 抓取互动数据、监控提及
- 排队发布内容
- 支持:X、LinkedIn、Threads、Reddit、Instagram、Facebook
求职和招聘
- 在 LinkedIn、Wellfound、YC Startup Jobs 上搜索岗位
- 过滤结果、点击 Apply
- 自动填写 ATS 表单(AshbyHQ、Greenhouse、Lever、Workday)
- 在正式提交前停下等你确认
SaaS 后台操作
- HubSpot、Salesforce、Notion、Airtable、Linear
- Stripe、GA4、Search Console、Mixpanel
- 拉取报表、刷新仪表板、批量更新字段
- 定时任务自动化
电商和预订
- Amazon 比价、Costco 批量下单
- Redfin、Zillow 房源筛选
- 机票、酒店、餐厅预订
- 自动填写繁琐表单,支付前停下
内部工具和测试
- 访问 admin 后台、staging 环境
- QA 流程自动化
- 继承真实登录态,不需要导入 cookie
七、常见问题
Q1: Space 会影响我当前的标签页吗?
不会。 Agent 在 Space 中操作,你的标签页、焦点、鼠标都不受影响。
Q2: 任务结束后标签页会自动关闭吗?
不会。 Space 保留相关标签页,方便你检查 Agent 的访问路径和结果。
Q3: 什么时候不需要 Space?
只是搜索公开资料、总结公开网页,不需要登录或网页操作时,普通 web search 更合适。
Q4: ego lite 是否收费?
免费下载,没有订阅费,没有按任务计费。 你用自己的 Agent CLI 和自己的模型 API key 即可。
Q5: 数据隐私如何保证?
所有浏览数据都留在本地。 从 Chrome 迁移的密码、cookie、历史记录、书签、扩展、Profile 都不会上传。页面内容由你自己的 Agent 读取和操作,ego lite 只负责浏览器和桥接。
Q6: 支持哪些操作系统?
目前支持 macOS。Windows 和 Linux 在路线图上。
八、总结
ego lite 是一款专为 AI Agent 和人类协同工作设计的浏览器,核心优势:
- Space 并行工作空间:Agent 在后台跑任务,你继续浏览网页,互不干扰
- Snapshot 高效页面快照:token 消耗降低 90%,Agent 理解网页更快更准
- ego-browser 自动化运行时:一次 heredoc 完成整个任务,性能提升 3 倍
- 开箱即用的登录态:自动继承 Chrome 登录状态,无需重新登录
- 兼容所有主流 Agent:Claude Code、Codex、Cursor、Continue 等全支持
如果你正在使用 AI 编程工具,并且需要让 Agent 操作浏览器,ego lite 是目前最快、最省资源、最易用的解决方案。
延伸阅读
关于作者
本文基于 ego lite 官方文档整理,旨在帮助 AI Agent 用户快速上手浏览器自动化。如有问题或建议,欢迎在评论区讨论。
📌 行动建议:
- 下载 ego lite:lite.ego.app
- 完成 onboarding,迁移浏览器数据
- 在你的 Agent(Claude Code/Codex)里输入
/ego-browser - 运行第一个任务,体验 Space + Snapshot 的魔力
祝你玩得开心!🚀