在数字化和互联网时代,浏览器 已经成为我们日常生活中不可或缺的常用工具之一。
无论是查找信息、购物、社交,还是进行在线办公,浏览器几乎是我们访问整个互联网的"窗口"。
然而,随着在线操作的复杂性增加,很多人可能会觉得在繁琐的网页操作中浪费了太多时间:手动填表、反复检查信息、逐个验证内容、在多个网页之间来回切换等等。
但在AI时代,这些困扰都能以一种超简单的方式解决。只需要一句话(提示词),就能自动化这些操作。
今天想要分享的 Midscene 神器,就是这样一款全新AI浏览器操作助手。
项目简介
Midscene 是一款浏览器操作AI助手,旨在通过自然语言理解和自动化执行的方式,简化网页操作。
用户只需要以AI提示词的形式,Midscene 就能自动理解并执行相应的操作。
无论是发条微博、搜索网页内容,还是提取数据等,都会根据你的指令自动在浏览器中进行操作。
这款工具通过 Chrome 插件安装即可使用,且完全无需编程基础,普通用户也可以轻松上手。
核心功能
-
自然语言操作:只需描述你的目标和步骤,就能根据指令自动为你规划和操作用户界面。
-
Chrome 插件体验:通过 Chrome 插件,就能立即开始体验,无需编写代码。
-
Puppeteer/Playwright 集成:支持 Puppeteer 和 Playwright 集成,让你能够结合 AI 能力和自动化工具的强大功能,轻松实现自动化操作。
-
支持私有化部署:支持私有化部署 UI-TARS 模型,相比 GPT-4o、Claude 等闭源模型,不仅在 UI 自动化场景下表现更加出色,还能更好地保护数据安全。
-
支持通用模型:支持 GPT-4o、Claude 等通用大模型,适配多种场景需求。
-
用可视化报告来调试:通过测试报告和 Playground,你可以轻松理解、回放和调试整个过程。
-
支持缓存:首次通过 AI 执行后任务会被缓存,后续执行相同任务时可显著提升执行效率。
-
理解UI、JSON格式回答:可以提出关于数据格式的要求,然后得到 JSON 格式的预期回应。
-
直观断言:用自然语言表达你的断言,AI 会理解并处理。
快速使用
Midscene 的安装过程非常简单,只需通过Chrome插件进行安装,便可开始使用。
以下是基本的安装步骤:
1、下载 Midscene 插件
直接访问谷歌插件商店,搜索 Midscene 进行安装,也可以打开下面👇🏻的链接,直达。
chromewebstore.google.com/detail/mids...
2、配置设置
安装后,按照提示设置插件,包括AI模型的API Key,确保后续操作能够顺利执行。
3、开始操作
点击 Midscene 插件,打开工具侧边栏,输入提示词(打开什么网站,干什么操作等)。
还有更多实用技巧,如:JS脚本控制、API指导、提示词使用技巧等,可以参考以下官方文档:
适用场景
-
社交媒体管理:无论是发布推文、更新状态,还是评论互动,Midscene 都能通过简单指令帮助你快速管理社交媒体账号。
-
信息收集与数据提取:在需要获取网页中大量数据的情况下,Midscene 可以帮助你快速提取关键信息,例如从电商网站提取产品价格、库存,或从新闻网站收集内容。
-
在线任务自动化:适用于需要频繁访问和操作网页的各种任务,如自动填写表单、登录网站、点击链接等。
-
个人助手应用:通过自然语言输入指令,Midscene 还可以成为个人助理,帮助你轻松完成日常的网页操作,提升生活和工作效率。
写在最后
随着AI技术的进步,像 Midscene 这样的AI工具逐渐进入我们的日常生活。
它让繁琐的网页操作变得简单高效,节省了大量时间与精力。无论是社交媒体发布、信息提取,还是日常网页操作自动化,Midscene 都能为你提供完美的解决方案。
更重要的是,它的开源免费,而且支持私有化部署,因此它既适合个人用户,也适合企业使用。
它不仅仅是一个AI助手,更是一个提升数字化工作效率的好帮手。
GitHub 项目地址:github.com/web-infra-d...