AI自动化黑马!3B小模型吊打GPT-4?这款开源神器让AI替你上班!

我们每天可能都重复着某些工作内容:登录后台导出数据、填写繁琐的Web表单、跨系统发布信息......

明明都是标准化流程,却要耗费大量人力。更糟糕的是,当你想用AI自动化时,要么遇到天价API费用,要么被复杂的环境依赖劝退。

Proxy Lite 的开源,给你丝滑便捷的自动化操作体验。

这个仅3B参数的开源视觉语言模型 (VLM),能像真人一样观察浏览器、思考决策、操作网页,将重复性工作自动化成本降至冰点,完全解放你的双手。

不仅具备强大的网页自动化能力,还能在 超低资源占用 的情况下提供企业级浏览器控制能力,也为开源社区带来了全新的 AI 代理体验。

核心能力

1、轻量级 VLM,低资源占用

仅 3B 参数,相比于动辄 10B+ 的 VLM,Proxy Lite 资源占用极低,可在消费级 GPU 运行。

可高效执行网络自动化任务,无需依赖大型云计算资源,即可实现 网页交互、数据抓取、自动表单填写等任务。

2、提供VLM-浏览器交互框架

内置了一套完整的浏览器交互控制框架,使 AI 代理可以像人类一样与网页进行交互。

适用于 网页抓取、自动化测试、数据录入、Web 应用交互、任务执行 等多种场景,帮助开发者更轻松地构建 AI 驱动的浏览器控制系统。

3、三步响应机制,提高泛化能力

采用了 观察-思考-工具调用 三步决策流程,远超传统的 Prompt-预测 方式,使得模型在处理复杂任务时具备更强的泛化能力。

  • • 观察(Observe):评估上一操作是否成功,并获取当前网页的状态信息。

  • • 思考(Think):根据当前页面的状态进行推理,决定下一步该执行的操作。

  • • 工具调用(Act):通过浏览器 API 进行交互,点击按钮、填充表单、滚动页面、抓取数据等。

这一机制让 Proxy Lite 能够自主规划任务,适应不同网页环境,提高任务完成率。

4、借鉴 DeepSeek R1 反馈机制

借鉴了 DeepSeek R1 等模型的执行反馈机制,让模型能够在网页任务中不断优化决策流程,提升执行准确性。

快速使用

Proxy Lite 可快速在本地进行部署,具体步骤如下:

① 克隆项目

bash 复制代码
git clone https://github.com/convergence-ai/proxy-lite.git

② 一键设置环境

go 复制代码
make proxy

或者手工安装环境

css 复制代码
pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install

③ 使用

使用帮助可以执行以下命令查看:

bash 复制代码
proxy --help

在 Proxy Lite 运行任务

arduino 复制代码
proxy "Find some markets near Kings Cross and tell me their ratings."

或者你可以使用以下命令运行本地网络界面:

go 复制代码
make app

更多高级用法可参考项目说明。

适用场景

Proxy Lite 适用于各种 网页自动化和 AI 代理任务,包括但不限于:

  • • 自动化浏览器操作:让 AI 代理直接在浏览器上 点击按钮、填写表单、滚动页面、处理弹窗 等。

  • • 网页数据抓取:解析 新闻、社交媒体、电商平台,进行 结构化数据提取,并支持后续处理。

  • • 自动化测试 & 交互式 Web 代理:结合 VLM 视觉感知能力,实现 UI 自动化测试、前端行为分析。

  • • 智能任务助手:可作为 AI 浏览助手,帮助用户 搜索、筛选、总结信息,提升网页导航体验。

写在最后

Proxy Lite 作为 开源、轻量级的 AI 代理助手,在 网页自动化、浏览器交互、任务泛化 方面都展现了极大的潜力。

它提供了仅 3B 参数的高效推理能力,并结合观察-思考-工具调用三步决策机制,能够精准执行复杂的 Web 任务,相比现有大模型代理助手更加轻量、易用、泛化能力更强。

GitHub 项目地址:github.com/convergence...

相关推荐
平凡之路无尽路1 天前
google11月agent发展白皮书
人工智能·语言模型·自然语言处理·nlp·aigc·ai编程·agi
腾飞开源1 天前
41_Spring AI 干货笔记之 OpenAI SDK 嵌入(官方支持)
人工智能·嵌入模型·spring ai·openai sdk·github models·示例控制器·无密码认证
说私域1 天前
从“搅局”到“重构”:开源AI智能名片多商户商城小程序对电商生态的范式转型研究
人工智能·重构·开源
艾莉丝努力练剑1 天前
【Python基础:语法第六课】Python文件操作安全指南:告别资源泄露与编码乱码
大数据·linux·运维·人工智能·python·安全·pycharm
song5011 天前
鸿蒙 Flutter 离线缓存架构:多层缓存与数据一致性
人工智能·分布式·flutter·华为·开源鸿蒙
围炉聊科技1 天前
两周实测:Kiro与Trae cn谁是我更中意的AI IDE?
ide·人工智能
zandy10111 天前
当BI遇见AI Agent:衡石科技如何重塑企业数据分析工作流
人工智能·科技·数据分析·ai agent·data agent
草莓熊Lotso1 天前
C++11 核心特性实战:列表初始化 + 右值引用与移动语义(附完整代码)
java·服务器·开发语言·汇编·c++·人工智能·经验分享
渡我白衣1 天前
AI应用层革命(七)——智能体的终极形态:认知循环体的诞生
人工智能·深度学习·神经网络·目标检测·microsoft·机器学习·自然语言处理