每天在后台系统填表单、在电商网站筛商品、在管理后台点来点去......如果有一天,你只需要说一句话,AI 就能替你干完这些活,你会不会觉得:我的双手终于可以解放了?
说实话,我第一次看到阿里开源的 PageAgent 时,脑子里蹦出的就是上面那句话。这是一个能听懂人话、然后直接帮你操作网页的小工具------不需要写脚本,不需要装插件(甚至可以用书签),只需要一行代码,或者一句话。
它让我突然意识到:我们和网页的交互方式,可能正在迎来一次真正的变革。
一、体验下三个让你"哇塞"的场景
场景一:后台系统创建用户(打工人狂喜)
想象你在一个管理后台,每天要创建几十个新用户。以前:点"新增"→填姓名、邮箱、角色→点"保存",重复几十遍。现在:直接说
"创建一个用户,姓名张五,邮箱 zhangwu@example.com,其他随便。"
PageAgent 会自动找到"创建用户"按钮、弹出表单、填好信息、点击提交。你只需要看着它做完,然后喝口水。

场景二:在京东找一本书(购物不用动手)
你突然想买一本 AI 相关的书,预算有限。打开京东首页,输入关键词,筛选自营,再设价格区间......这一套流程少说也得一两分钟。用 PageAgent 呢?说一句话:
"京东上找一本 AI Agent 的书,50 元以内,要自营。"
然后它就自己干了,最后把链接或商品信息给你。你甚至可以在它执行的时候去倒杯水。

最终结果:


场景三:给自己的网页加个 AI 助手(开发者福音)
如果你是个前端开发者,想给自己的表单页面加点"智能",只需要在 HTML 里加一行代码:
xml
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8" />
<title>Page Agent Demo(免费版)</title>
</head>
<body>
<h2 id="title">Page-Agent 测试</h2>
<form id="form">
<input placeholder="请输入用户名" name="username" /><br />
<input placeholder="请输入年龄" name="age" /><br />
<button type="submit">提交按钮</button>
</form>
<!-- 接入 CDN -->
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.11/dist/iife/page-agent.demo.js"></script>
<script>
const form = document.getElementById('form');
const title = document.getElementById('title');
form.addEventListener('submit', (e) => {
e.preventDefault(); // 👈 关键:阻止页面刷新
// 直接修改标题
title.innerText = '表单提交成功 ✅';
});
</script>
</body>
</html>
然后你的用户就可以说"帮我填用户名和年龄,然后提交",剩下的 PageAgent 全包了。一行代码,让任何网页瞬间拥有 AI 操作能力。
任务描述:
输入用户名为李四,年龄16,然后点击提交

二、PageAgent 是怎么做到的?
如果你以为它是靠"截图 + 多模态模型"实现的,那就猜错了。那种方式成本高、速度慢,而且截图稍微模糊一点就认错。
PageAgent 走了一条更"工程"的路:它直接解析网页的 DOM 结构,把页面里的按钮、输入框、链接等交互元素提取出来,压缩成一段结构化文本,然后让大模型理解。大模型不需要"看"页面长什么样,只需要知道"当前页面上有什么可以点的、可以填的",就能决定下一步操作。
整个过程是一个循环:****观察(解析 DOM)→ 思考(大模型决策)→ 执行(模拟点击/输入)→ 再观察......****直到任务完成。
好处也很明显:
- 速度快,因为不用传截图;
- 成本低,因为对模型能力要求不高;
- 更稳定,因为操作的是真实 DOM 元素,不是像素。

三、未来:网页还会存在吗?前端还写代码吗?
如果你回看历史,会发现每一次交互方式的变迁,本质上都是让人更懒、更爽的过程。
1. 命令行界面(CLI)------ 只有极客才玩得转
想操作电脑?先背几十条指令吧。ls -l、cd ..、grep......每一个字符都不能错,否则机器就不理你。这是 人迁就机器 的时代,效率虽高,但门槛高得吓人。
2. 图形用户界面(GUI)------ 普通人的春天
苹果和微软把电脑变成了"所见即所得"。你不再需要记指令,用鼠标点图标、拖窗口就行。这是 机器开始迁就人 的第一步,但交互依然是固定的:按钮只能点,输入框只能填,菜单只能选。
3. 触控 + 语音 ------ 更自然的"对话"
iPhone 的多点触控,让"滑动""捏合"变成直觉;Siri、小爱同学,让你动嘴就能放歌、设闹钟。交互变得更像"对话",但依然依赖明确的触发词或手势,机器并不真正理解你的意图。
你看,前三次变革,都是人在适应工具,只是工具变得越来越好用而已。
4. 第四次变革:让 AI 替你"操作"网页
当 AI 能直接替我们操作网页,我们还需要"操作"网页吗?这个问题可能会让一些前端同学焦虑------如果用户都不需要点击了,那界面还重要吗?
我的看法是:界面依然重要,但它的角色会变 。以前界面是"操作入口",未来界面是"意图表达层"------我们需要设计出让 AI 更容易理解的语义化结构,让 AI 知道哪里是按钮、哪里是输入框、它们的用途是什么。就像 HTML5 增加了 <article>、<nav> 等语义标签一样,未来可能会有更多"面向 AI"的设计规范。
同时,隐私和安全也会成为新话题:你愿意让 AI 替你操作银行网站吗?它怎么确保不误点转账按钮?这些问题现在还没有标准答案,但一定会有新的解决方案出现。
四、最后,你也可以试试
PageAgent 的接入方式简单得不像真的:
- 书签模式:复制一段代码保存为书签,在任何页面点击就能唤起。
- 浏览器插件:去 Chrome 商店安装,跨页面操作更方便。
- SDK 集成:开发者往自己项目里加一行 script 标签就行。
项目地址在这里:alibaba/page-agent
我已经在自己的后台管理系统里试过了,让 AI 替我建了十几个测试账号,体验真的......有点上瘾。