Midscene 提示词工程实战:从入门到精通的 11 个核心技巧

Midscene 提示词工程实战:从入门到精通的 11 个核心技巧

在 Midscene 平台进行 AI 交互时,编写高质量的提示词(Prompt)是获得理想响应的关键。本文将深入剖析 11 个核心技巧,帮助开发者实现更稳定、高效的 AI 交互。

一、追求稳定响应,驯服 AI "幻想"

AI 模型在生成响应时,偶尔会出现偏离实际需求的 "幻想" 情况。我们编写提示词的首要目标,就是通过优化指令,让模型在多次运行过程中输出稳定的结果。实践证明,结构清晰、逻辑明确的提示词,能够显著提升 AI 模型响应的准确性和可靠性。

二、细节与样例:提示词的黄金搭档

提供详细描述和具体示例,是提升提示词效果的重要手段。以搜索操作为例:

  • ❌ 错误示例:搜 ' 耳机'

  • ✅ 正确示例:找到搜索框(搜索框的上方应该有区域切换按钮,如 ' 国内 ',' 国际 '),输入 ' 耳机 ',敲回车

在断言操作中:

  • ❌ 错误示例:断言:外卖服务正在正常运行

  • ✅ 正确示例:断言:界面上有个 "外卖服务" 的板块,并且标识着 "正常"

通过明确操作细节和具体界面元素描述,能引导模型精准执行任务,让判断依据更清晰。

三、即时操作接口:提速增效的利器

Midscene 提供不同交互模式,选择合适的接口能大幅提升执行效率:

  • agent.ai('点击登录按钮') 采用自动规划模式,模型会先规划操作步骤再执行,这一过程会消耗更多时间和 token;

  • agent.aiTap('登录按钮') 作为即时操作接口,可直接定位目标并执行点击操作,速度更快且准确性更高。

在对效率要求较高的场景中,优先使用即时操作接口能有效提升任务处理速度。

四、深度解析错误:从报告中找答案

Midscene 的运行报告是定位问题的关键。每个 .ai 调用包含规划和定位两个核心步骤:

  • 规划步骤出错:当出现步骤不符预期(如操作步骤缺失或多余),表明模型在规划步骤出错。

    • ❌ 错误示例:选择 'include' 选项
    • ✅ 正确示例:点击 'range' 下拉菜单,并选择 'include' 选项
      通过补充更多任务细节,能帮助模型更准确地规划操作。
  • 定位步骤出错:若定位结果不符合预期(比如元素识别错误或坐标偏移),则是定位步骤出现问题。

    • ❌ 错误示例:点击 "Add" 按钮
    • ✅ 正确示例:点击页面右上角的 "Add" 按钮,它是一个带有 "+" 图标的按钮,位于 "range" 下拉菜单的右侧
      通过提供更详细的定位参数,能提高模型定位的准确性。

五、优化组合拳:模型与接口的升级

除了优化提示词本身,还可以通过以下方式提升交互效果:

  • 选择强大的 AI 模型:更大尺寸、性能更强的模型往往具备更出色的理解和处理能力;
  • 持续使用即时操作接口 :替代常规的 .ai 调用,在实际项目中能不断积累效率优势,让 AI 交互更加流畅高效。

六、指令简洁至上:一次只做一件事

尽管 Midscene 具备自动重规划能力,但为确保 LLM 输出的准确性,每个 .ai 指令应专注于单一任务。将复杂操作拆解为多个简单指令:

  • ❌ 错误示例:点击登录按钮,然后点击注册按钮,在表单中输入 'test@test.com' 作为邮箱,'test' 作为密码,然后点击注册按钮

  • ✅ 正确示例:

    • 点击登录按钮

    • 点击注册按钮

    • 在表单中 [邮箱] 输入 'test@test.com'

    • 在表单中 [密码] 输入 'test'

    • 点击注册按钮

这样的分步操作能避免模型输出混乱,提高任务执行成功率。

七、数值处理策略:为模型提供选项

由于 LLM 在辨别数值(如坐标、十六进制颜色值)时可能存在困难,可将数值转换为选项形式:

  • ❌ 错误示例:string,文本颜色的十六进制值

  • ❌ 错误示例:[number, number],主按钮的 [x, y] 坐标

  • ✅ 正确示例:string,文本的颜色,返回:蓝色 / 红色 / 黄色 / 绿色 / 白色 / 黑色 / 其他

通过提供具体选项,降低模型理解难度,提高输出的准确性。

八、调试利器:可视化报告与 Playground

Midscene 的测试报告详细记录了每个步骤的信息,是调试的重要依据。当需要结合报告中的 UI 状态重新运行 Prompt 时:

  1. 可通过 npx --yes @midscene/web 启动本地 Playground Server;
  2. 利用 "Send to Playground" 功能,快速验证修改后的提示词效果,大大提高调试效率。

九、界面导向思维:让模型 "看见" 关键信息

传递给 LLM 的数据主要是截图和元素坐标,DOM 属性和浏览器状态对其几乎不可见。因此,编写提示词时应从界面实际展示出发,避免依赖模型无法获取的信息:

  • ❌ 错误示例:标题有个 test-id-size 属性

  • ❌ 错误示例:浏览器有两个 tab 开着

  • ❌ 错误示例:异步请求已经结束了

  • ✅ 正确示例:标题是蓝色的

使用基于界面可视化内容的表述,确保模型能够准确理解和处理指令。

十、双重保障:断言交叉检查结果

鉴于 LLM 可能出现错误行为,在执行操作后对结果进行检查至关重要。以待办应用为例:

javascript

scss 复制代码
await ai('在任务框中输入"后天学习 AI",然后按 Enter 键创建');
// 检查结果
const taskList = await aiQuery<string[]>('string[], 列表中的任务');
expect(taskList.length).toBe(1);
expect(taskList[0]).toBe('后天学习 AI');

通过上述代码对任务创建结果进行断言检查,确保操作达到预期效果。

十一、语言无界:中、英文提示词自由切换

大多数 AI 模型支持多语言理解,开发者可根据个人习惯和项目需求,自由选择中文或英文编写提示指令。即使提示语言与页面语言不同,通常也不会影响模型的正常处理,为开发者提供了极大的便利性。

掌握这些 Midscene 提示词工程技巧,能够帮助开发者充分发挥 AI 模型的潜力,实现更高效、精准的人机交互。在实际应用中,不断实践和总结经验,将能进一步提升提示词编写水平,为项目开发带来更多价值。

相关推荐
想用offer打牌2 小时前
MCP (Model Context Protocol) 技术理解 - 第二篇
后端·aigc·mcp
崔庆才丨静觅2 小时前
hCaptcha 验证码图像识别 API 对接教程
前端
passerby60613 小时前
完成前端时间处理的另一块版图
前端·github·web components
掘了3 小时前
「2025 年终总结」在所有失去的人中,我最怀念我自己
前端·后端·年终总结
崔庆才丨静觅3 小时前
实用免费的 Short URL 短链接 API 对接说明
前端
崔庆才丨静觅4 小时前
5分钟快速搭建 AI 平台并用它赚钱!
前端
在校大学生0074 小时前
AI教我赚100万用1年的时间–4(水文)
aigc
崔庆才丨静觅4 小时前
比官方便宜一半以上!Midjourney API 申请及使用
前端
Moment4 小时前
富文本编辑器在 AI 时代为什么这么受欢迎
前端·javascript·后端