我让 AI 操作网页之后,开始不想点按钮了

每天在后台系统填表单、在电商网站筛商品、在管理后台点来点去......如果有一天,你只需要说一句话,AI 就能替你干完这些活,你会不会觉得:我的双手终于可以解放了?

说实话,我第一次看到阿里开源的 PageAgent 时,脑子里蹦出的就是上面那句话。这是一个能听懂人话、然后直接帮你操作网页的小工具------不需要写脚本,不需要装插件(甚至可以用书签),只需要一行代码,或者一句话

它让我突然意识到:我们和网页的交互方式,可能正在迎来一次真正的变革。


一、体验下三个让你"哇塞"的场景

场景一:后台系统创建用户(打工人狂喜)

想象你在一个管理后台,每天要创建几十个新用户。以前:点"新增"→填姓名、邮箱、角色→点"保存",重复几十遍。现在:直接说

"创建一个用户,姓名张五,邮箱 zhangwu@example.com,其他随便。"

PageAgent 会自动找到"创建用户"按钮、弹出表单、填好信息、点击提交。你只需要看着它做完,然后喝口水。

场景二:在京东找一本书(购物不用动手)

你突然想买一本 AI 相关的书,预算有限。打开京东首页,输入关键词,筛选自营,再设价格区间......这一套流程少说也得一两分钟。用 PageAgent 呢?说一句话:

"京东上找一本 AI Agent 的书,50 元以内,要自营。"

然后它就自己干了,最后把链接或商品信息给你。你甚至可以在它执行的时候去倒杯水。

最终结果:

场景三:给自己的网页加个 AI 助手(开发者福音)

如果你是个前端开发者,想给自己的表单页面加点"智能",只需要在 HTML 里加一行代码:

xml 复制代码
<!DOCTYPE html>

<html lang="zh-CN">
<head>
  <meta charset="UTF-8" />
  <title>Page Agent Demo(免费版)</title>
</head>
<body>
  <h2 id="title">Page-Agent 测试</h2>

  <form id="form">
    <input placeholder="请输入用户名" name="username" /><br />
    <input placeholder="请输入年龄" name="age" /><br />
    <button type="submit">提交按钮</button>
  </form>

  <!-- 接入 CDN -->
  <script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.11/dist/iife/page-agent.demo.js"></script>

 <script>
    const form = document.getElementById('form');
    const title = document.getElementById('title');

    form.addEventListener('submit', (e) => {
        e.preventDefault(); // 👈 关键:阻止页面刷新
        // 直接修改标题
        title.innerText = '表单提交成功 ✅';
    });
  </script>

</body>
</html>


然后你的用户就可以说"帮我填用户名和年龄,然后提交",剩下的 PageAgent 全包了。一行代码,让任何网页瞬间拥有 AI 操作能力。

任务描述:

输入用户名为李四,年龄16,然后点击提交


二、PageAgent 是怎么做到的?

如果你以为它是靠"截图 + 多模态模型"实现的,那就猜错了。那种方式成本高、速度慢,而且截图稍微模糊一点就认错。

PageAgent 走了一条更"工程"的路:它直接解析网页的 DOM 结构,把页面里的按钮、输入框、链接等交互元素提取出来,压缩成一段结构化文本,然后让大模型理解。大模型不需要"看"页面长什么样,只需要知道"当前页面上有什么可以点的、可以填的",就能决定下一步操作。

整个过程是一个循环:****观察(解析 DOM)→ 思考(大模型决策)→ 执行(模拟点击/输入)→ 再观察......****直到任务完成。

好处也很明显:

  • 速度快,因为不用传截图;
  • 成本低,因为对模型能力要求不高;
  • 更稳定,因为操作的是真实 DOM 元素,不是像素。


三、未来:网页还会存在吗?前端还写代码吗?

如果你回看历史,会发现每一次交互方式的变迁,本质上都是让人更懒、更爽的过程。

1. 命令行界面(CLI)------ 只有极客才玩得转

想操作电脑?先背几十条指令吧。ls -lcd ..grep......每一个字符都不能错,否则机器就不理你。这是 人迁就机器 的时代,效率虽高,但门槛高得吓人。

2. 图形用户界面(GUI)------ 普通人的春天

苹果和微软把电脑变成了"所见即所得"。你不再需要记指令,用鼠标点图标、拖窗口就行。这是 机器开始迁就人 的第一步,但交互依然是固定的:按钮只能点,输入框只能填,菜单只能选。

3. 触控 + 语音 ------ 更自然的"对话"

iPhone 的多点触控,让"滑动""捏合"变成直觉;Siri、小爱同学,让你动嘴就能放歌、设闹钟。交互变得更像"对话",但依然依赖明确的触发词或手势,机器并不真正理解你的意图

你看,前三次变革,都是人在适应工具,只是工具变得越来越好用而已。

4. 第四次变革:让 AI 替你"操作"网页

当 AI 能直接替我们操作网页,我们还需要"操作"网页吗?这个问题可能会让一些前端同学焦虑------如果用户都不需要点击了,那界面还重要吗?

我的看法是:界面依然重要,但它的角色会变 。以前界面是"操作入口",未来界面是"意图表达层"------我们需要设计出让 AI 更容易理解的语义化结构,让 AI 知道哪里是按钮、哪里是输入框、它们的用途是什么。就像 HTML5 增加了 <article><nav> 等语义标签一样,未来可能会有更多"面向 AI"的设计规范。

同时,隐私和安全也会成为新话题:你愿意让 AI 替你操作银行网站吗?它怎么确保不误点转账按钮?这些问题现在还没有标准答案,但一定会有新的解决方案出现。


四、最后,你也可以试试

PageAgent 的接入方式简单得不像真的:

  • 书签模式:复制一段代码保存为书签,在任何页面点击就能唤起。
  • 浏览器插件:去 Chrome 商店安装,跨页面操作更方便。
  • SDK 集成:开发者往自己项目里加一行 script 标签就行。

项目地址在这里:alibaba/page-agent

我已经在自己的后台管理系统里试过了,让 AI 替我建了十几个测试账号,体验真的......有点上瘾。

相关推荐
陈天伟教授2 小时前
人工智能应用- 天文学家的助手:08. 星系定位与分类
前端·javascript·数据库·人工智能·机器学习
VaJoy2 小时前
给到夯!前端工具链新标杆 Vite Plus 初探
前端·vite
leonkay3 小时前
Golang语言闭包完全指南
开发语言·数据结构·后端·算法·架构·golang
颜酱3 小时前
BFS 与并查集实战总结:从基础框架到刷题落地
javascript·后端·算法
小彭努力中4 小时前
191.Vue3 + OpenLayers 实战:可控化版权信息(Attribution)详解与完整示例
前端·javascript·vue.js·#地图开发·#cesium
奇舞精选4 小时前
用去年 github 最火的 n8n 快速实现自动化推送工具
前端·agent
无限大64 小时前
数字生存02:如何在信息爆炸的时代保持清醒,不被算法控制
后端
奇舞精选4 小时前
实践:如何为智能体推理引入外部决策步骤
前端·agent
无限大64 小时前
AI实战02:一个万能提示词模板,搞定90%的文案/设计/分析需求
前端·后端