Midscene.js 初尝试

介绍

Midscene.js 是一个开源的 AI 操作助手,适用于 Web、移动端、自动化和测试。

特性

通过自然语言描述目标和步骤,自动生成 UI 自动化脚本

  • 描述你的目标和步骤,Midscene 会为你规划和操作用户界面。
  • 支持 JavaScript SDK 和 YAML 两种脚本格式

跨平台支持

  • 网页自动化:集成 Puppeteer、Playwright 或桥接模式控制桌面浏览器
  • Android 自动化:通过 adb 控制本地设备
  • iOS 自动化:通过 WebDriverAgent 控制本地设备

辅助工具

  • 提供可视化测试报告和 Playground 环境,便于调试和回放
  • 支持脚本缓存,提升执行效率
  • 开放 MCP 协议,允许其他 MCP Client 直接调用(支持 Web 和 Android)

三大 API 类型

  • 交互 API:操作用户界面元素
  • 数据提取 API:从 UI 和 DOM 中提取数据
  • 实用 API:提供 aiAssert() 断言、aiLocate() 定位、aiWaitFor() 等待等辅助函数

模型选择

模型最好使用支持视觉的模型,如: gemini, claude, UI-TARS 等模型。本文的案例会使用 Doubao-1.5-UI-TARS 进行介绍。

Doubao-1.5-UI-TARS 是字节跳动开源的一款原生面向图形界面交互(GUI)的 Agent 模型。通过感知、推理和行动等类人的能力,与 GUI 进行无缝交互,非常适合 Midscene.js 使用。

使用

接下来会演示如何使用 Midscene.js,本篇文章只介绍 MCP 进行操作的方法,其他的方法感兴趣的读者可以参考官方文档。

操作环境使用 zed 连接 Midscene mcp,mcp配置如下:

json 复制代码
    "mcp-midscene": {
      "enabled": true,
      "command": "cmd",
      "args": ["/c", "pnpx", "@midscene/mcp"],
      "env": {
        "MIDSCENE_MODEL_NAME": "doubao-seed-1-6-vision-250815",
        "OPENAI_API_KEY": "",
        "MCP_SERVER_REQUEST_TIMEOUT": "800000",
        "MIDSCENE_USE_DOUBAO_VISION": "1",
        "OPENAI_BASE_URL": "https://ark.cn-beijing.volces.com/api/v3"
      }
    },

配置完 mcp server 后,在浏览器扩展中打开桥接模式,设置允许连接,然后在编辑器输入 使用 midscene打开 https://jasminides.com/,生成网站的Playwright 自动化测试用例,测试以下功能:文章的打开关闭,tag页的功能,搜索页的功能,rss页的功能,将生成的用例保存到ut.ts文件中 过了一会任务执行完,可以看到代码顺利生成。

评价

通过对 midscene 的简单试用,个人评价是未来可期,由于受限于当前基础模型的限制,功能还有许多问题,但总体上还是非常有潜力的。

参考

相关推荐
新缸中之脑1 分钟前
基于PageIndex的文档问答
人工智能
普通网友2 分钟前
解决rfid系统安全的逻辑方法
人工智能
七夜zippoe2 分钟前
时间序列分析实战:从平稳性检验到Prophet与LSTM预测
人工智能·python·机器学习·arima·时间序列·prophet
OpenLoong 开源社区3 分钟前
合作官宣 | 技术协同新标杆!openKylin 适配具身智能人形机器人计划正式启动
人工智能·机器人·开源
说私域5 分钟前
开源AI智能名片链动2+1模式S2B2C商城小程序驱动下的电商裂变增长路径研究
人工智能·小程序·开源·流量运营·私域运营
说私域5 分钟前
六度人脉视域下信息价值传递的创新路径——基于AI智能名片链动2+1模式小程序的实践研究
人工智能·小程序·流量运营·私域运营
新新学长搞科研6 分钟前
【CCF主办 | 高认可度会议】第六届人工智能、大数据与算法国际学术会议(CAIBDA 2026)
大数据·开发语言·网络·人工智能·算法·r语言·中国计算机学会
多恩Stone7 分钟前
【3D-AICG 系列-2】Trellis 2 的O-voxel (上) Shape: Flexible Dual Grid
人工智能·python·算法·3d·aigc
珠海西格电力科技1 小时前
微电网控制策略基础:集中式、分布式与混合式控制逻辑
网络·人工智能·分布式·物联网·智慧城市·能源
Java后端的Ai之路2 小时前
【RAG技术】- RAG系统调优手段之高效召回(通俗易懂附案例)
人工智能·rag·rag系统·召回·rag调优