如意网页管家:让 AI 自己上网查资料、填表单,browser-use 上手实录

OK,OK,大家好,欢迎大家来到大鹏 AI 教育,我是张大鹏。

今天接着聊我在捣鼓的一个开源项目,如意网页管家,它二开自 GitHub 上很火的 browser-use。

先说我为什么盯上它。我们平时上网干的很多活,其实又碎又烦:去某个网站查个数据、把一份信息挨个儿填进表单、盯着几个页面看有没有更新。这些事不难,就是耗时间,还得人守着。我一直在想,能不能让 AI 自己去干。browser-use 干的正是这个,它让大模型真的打开浏览器、自己点、自己填、自己读,把网页任务从头做到尾。

这篇是我把它拉到本地、用自己的模型跑通的一篇实录。所有代码和运行结果都是我真跑出来的,不是抄文档。

装起来比我想的简单

第一个惊喜是安装。我本来以为浏览器自动化要装一堆东西,结果就一行:

bash 复制代码
pip install browser-use

要求 Python 3.11 以上。而且它这个版本(0.13.3)不用再单独 playwright install,浏览器内核它自己在后台管,省了一道最容易劝退新手的坎。

关键一步:用国产模型驱动它

browser-use 默认引导你用它官方的托管模型,要单独的 key。但我手上有硅基流动的 key,它是 OpenAI 兼容的,于是我直接用 ChatOpenAI 把它接了进来。这一步是我最想验证的,因为通了就意味着一个国产大模型 key 就能把整套跑起来。

真实可跑的配置就这么几行:

python 复制代码
from browser_use import Agent, ChatOpenAI
from browser_use.browser import BrowserProfile

llm = ChatOpenAI(
    model="deepseek-ai/DeepSeek-V3.2",
    base_url="https://api.siliconflow.cn/v1",   # 硅基流动,OpenAI 兼容
    api_key="你的 key",
)

agent = Agent(task="你的自然语言任务", llm=llm,
              browser_profile=BrowserProfile(headless=True))

一个 Agent,一句自然语言的 task,一个 llm,就齐了。我对照过 browser-use 的源码,ChatOpenAI 这类模型都从 browser_use 顶层直接导入,OpenAI/Anthropic/Gemini/Ollama 都有对应的类,想换模型就换一行。

探路:让它读一个网页标题

我没有一上来就上难的,先让它打开 example.com,把页面主标题读回来。

结果它真跑通了,DeepSeek 驱动着浏览器一步步走完,最后返回:

复制代码
The exact main heading (h1) text on https://example.com is: "Example Domain".

到这我就放心了,这条路通了。接着上真活。

真活:让 AI 自己上网查资料

我给它一个更像日常的任务:去 Hacker News 首页,把当前排名前三的帖子标题告诉我。

我把它这次真实运行的动作流和结果整理成一张图:

它自己规划、自己执行,全程三步,我把动作流也用文字讲一遍,这也是我觉得 browser-use 最有意思的地方:

  • navigate :它先导航到 news.ycombinator.com
  • 它会"想":日志里有一段它的记忆,写着它已经看到页面加载出来、注意到帖子有排名序号、判断需要正式提取前三个标题
  • extract:调用提取工具,把前三个主标题抓出来
  • done:确认结果无误,返回给我

最后拿到的真实结果是:

复制代码
1. Kimi K2.7 Code is generally available in GitHub Copilot
2. The Fall of the Theorem Economy
3. Ask HN: Who is quitting? (July 2026)

我讲课时老跟学员强调一个点,这里正好印证:一个好的 AI agent,值钱的不是它多聪明,是它有一套看一步、想一步、做一步的闭环。browser-use 每一步都带着自己的判断(它管这叫 Eval 和 Memory),像个真的助手在网上一点点摸索,而不是把一串死命令跑完就完事。

填表单也是一个路子

我这次主要跑的是查资料。填表单其实是同一套机制,browser-use 官方的示例目录里就有一个 apply_to_job.py,用一份简历自动去填招聘申请表,还有把购物清单加进购物车的例子。这些我下一篇会亲自跑一遍再来汇报,这篇先不替你打包票,只讲我这次真验证过的部分。

我的几个判断

跑完这一圈,我的判断是这样的。

browser-use 这类工具,真正打开的是一个口子:以前需要人守着、一步步点的网页活,现在可以交给 AI 自己去磨。查资料、盯页面更新、批量填信息,都是它的菜。

但也别神化它。它每走一步都要问一次大模型,是烧 token 的;网页一改版,自动化也可能失效。所以它更适合做那些重复、规则清楚、又值得省人力的活,而不是指望它替你干所有事。

对想学 AI 应用的你,我的建议是先照上面这几行把它跑通,亲眼看 AI 自己开浏览器干活一次,比看十篇介绍都值。

最后

如意网页管家 我还在接着二开和研究,下一篇我去把"自动填表"这条真跑一遍给你看。

如果你也想学怎么把 AI 塞进自己每天的网页活里,搭一个能替你上网干活的助手,这正是我在大鹏 AI 教育带大家做的事,不堆概念,直接上手做能跑的东西。想系统学的,来看看我的课。