浅玩一下,基于 Appium 的 AI 辅助自动化测试

引言

前段时间字节推出了一款基于 AI 的自动化测试工具 Midscene.js,但它只能测试 Web 应用,不能测试移动端应用,所以本文就来调研下基于 Appium 的 AI 辅助自动化测试。

先上效果,测试用例如下:

python 复制代码
import time
from appium.options.android import UiAutomator2Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from appium import webdriver

class TestJueJin:
    def setup(self):
        caps = {
            "platformName": "Android",
            "appium:app": "/****/juejin.apk",
            "appium:automationName": "UiAutomator2",
            "appium:deviceName": "Android Deive",
            "appium:platformVersion": "16",
            "appium:appPackage": "com.daimajia.gold",
            "appium:appActivity": "im.juejin.android.ui.SplashActivity",
            "appium:autoGrantPermissions": True,
            "appium:noReset": False,
            "appium:llmModel": "****",
            "appium:llmApiKey": '******',
            'appium:llmServerBaseUrl': "******",
        }
        self.driver = webdriver.Remote("http://localhost:4723", options=UiAutomator2Options().load_capabilities(caps))
    def test_one(self):
        WebDriverWait(self.driver, 10).until(
            EC.presence_of_element_located(('ai_xml', "同意"))
        )
        btn = self.driver.find_element('ai_xml', "同意")
        btn.click()
        time.sleep(2)
        btn = self.driver.find_element('ai_xml', "第一篇文章")
        btn.click()
        time.sleep(2)
        assert self.driver.find_element('ai_xml', "关注") is not None

使用 pytest 运行,过程中截图如下:

实现过程

首先,我们需要安装一些工具:

  • appium:本文用的是 v2 版本
  • UiAutomator2 driver:用于连接 Android 设备
  • Android Studio:用于安装模拟器

安装完成后可以先尝试用普通的方式写一个用例跑一下,这里就不展开了,下面介绍下怎么接入 AI。

本文用到的是 appium-llm-plugin,目前是一个实验性质的 appium 的插件。

文档中介绍的使用方式如下:

python 复制代码
const rawEl = await driver.findElement('ai', "Your element description here")

其效果就是当 findElement 第一个参数为 ai 时,找寻元素的工作会交给该插件去完成,插件会根据元素的描述去查找元素,然后返回。他有三种查找元素的模式:

  • screenshot:在这种模式下,会将屏幕截图和元素描述信息发送给大模型,并提示它确定图像中所描述元素的边界框。然后插件会封装一个轻量级的"image element" 进行返回,可以调用 click() 进行点击。
  • xml:在这种模式下,会将页面 XML 数据和元素描述信息发送给大模型,并提示它返回元素的 XPath 选择器,然后使用原来的 XPATH 选择器选择元素进行返回。在这种情况下,描述信息中如果有 XML 中不存在的视图信息,将会是无效的。
  • xmlpos:这种模式其实是前两种模式的结合,发送给大模型的是 XML 数据,返回的是轻量级的"image element"。这种模式目前只支持 Android。

其中 screenshot 和 xmlpos 需要大模型支持图片。

为了方便调试,我把源码下载到了本地,并修改了一下代码,支持调用 findElement 时指定:

python 复制代码
self.driver.find_element('ai_xml', "***")
self.driver.find_element('ai_screenshot', "***")
self.driver.find_element('ai_xmlpos', "***")

并通过下面方式安装:

bash 复制代码
appium plugin install --source=local /path/to/appium-llm-plugin

启动 appium 时,也需要指定:

bash 复制代码
appium --use-plugin=llm

总结

可以看到,目前该插件只是把查找元素这一核心功能使用 AI 来进行了替换,跟 Midscene.js 相比还是有不小的差距。

比如 Midscene.js 可以实现一句话完成一个"输入+点击"的动作:

js 复制代码
await ai('type "Headphones" in search box, hit Enter');

Midscene.js 支持自然语言断言:

js 复制代码
await aiAssert("There is a category filter on the left");

这个后面再研究下看能不能基于该插件也实现类似的功能。

相关推荐
sg_knight10 小时前
openCode、Claude Code、Cursor、Copilot,到底怎么选
llm·agent·ai编程·claude·codex·opencode·claude-code
JouYY10 小时前
我是如何在业务 Agent 项目中应用 Harness 的
llm·aigc·agent
装不满的克莱因瓶12 小时前
学习 LLM 的函数回调及格式化输出,让 LLM 拥有更强的能力
人工智能·ai·大模型·llm·agent·智能体
CoderJia程序员甲13 小时前
GitHub 热榜项目 - 周榜(2026-06-06)
ai·大模型·llm·github
AI破壁猿13 小时前
我做了一个 AI 工具,把 GitHub 仓库 5 分钟转成专利交底书
人工智能·llm·saas
冬奇Lab18 小时前
Agent 系列(15):Agent 记忆系统进阶——短期、长期、压缩,三层记忆架构
人工智能·llm·agent
Esaka_Forever19 小时前
Agent = LLM + Tools + Knowledge + Memory
llm
星马梦缘20 小时前
MCP 模型上下文协议、Agent Skills 智能体技能、Harness操作系统 课程内容
人工智能·大模型·llm·agent·智能体·mcp·skills
lhxcc_fly1 天前
6.3.1RAG--存储(嵌入向量)
langchain·llm·embedding
心之伊始1 天前
Java 后端接入大模型:从 Token、并发到推理成本的完整估算方法
java·spring boot·性能优化·大模型·llm