跨系统自动化技术演进:实在Agent的屏幕语义理解如何替代API和坐标脚本

一、企业集成的技术困局

2026年的企业IT环境里,一个残酷的数据摆上台面:MuleSoft报告显示企业平均运行957个应用程序,但仅有27%实现了集成。超过60%的关键业务逻辑仍运行在没有API的老旧系统上。

更棘手的是,这27%的集成率还在逐年下降------系统数量的增速远超打通它们的速度。对开发者来说,跨系统操作早已不是"能不能做"的问题,而是"做不做得起、维不维护得动"的成本问题。

过去二十年,行业尝试了两条主要技术路线:API集成和RPA脚本。它们各自解决了一部分问题,也各自碰到了天花板。而2026年,第三条路线------基于大模型的屏幕语义理解------正在从实验阶段走向生产环境。

二、API集成的辉煌与困境

API集成是跨系统交互的"理想解"。通过标准接口调用,数据交换效率高、状态可监控、安全可管控。Gartner数据显示超过90%的新企业应用已将API作为架构核心组件。

但在实际落地中,API路线撞上了两面墙。

第一面墙:老旧系统没有接口。 大量企业的核心业务仍跑在十年甚至二十年前开发的C/S架构系统上。这些系统建设时根本没有API设计理念,原厂支持早已停止,有些连源码都已遗失。对这些"数字黑盒",API路线无从下手。

第二面墙:接口开发和维护成本高。 即使目标系统有API,制造企业仅打通ERP与MES就需要开发200多个API接口,单个系统对接通常需要2-3个月。每次系统版本升级,接口契约都可能变更,企业需要持续投入资源做回归测试和兼容性修复。

更隐蔽的成本在于API治理。超过25%的企业API处于"未治理"状态------文档缺失、版本混乱、无安全管控。开发者调用一个API,常常需要先花半天搞清楚它的真实行为和边界条件。

三、传统RPA的突破与局限

传统RPA绕开了API依赖,通过模拟鼠标键盘操作实现跨系统交互。这一度被视为"数字黑盒"的破解之道。

但RPA的底层逻辑决定了它的天花板。传统RPA基于DOM树解析或坐标定位来识别界面元素。它记录的是"在坐标(800, 400)处输入用户名,在坐标(800, 450)处输入密码"------这是坐标记忆 ,不是语义理解

当界面布局因版本更新、分辨率调整或操作系统更换而发生变化时,坐标脚本就会大面积失效。组织通常将RPA预算的30%-50%用于维护和故障排除,企业平均每投入1元在传统RPA授权上,需额外花费2.5元进行脚本维护。

在信创环境下,这一问题被急剧放大。国产操作系统和软件正处于快速迭代期,UI界面频繁调整,传统RPA的脚本失效频率和维护成本呈指数曲线上升。

四、第三条路线:屏幕语义理解

面对API覆盖不足和坐标脚本维护成本高企的双重困境,一种新的技术范式正在兴起:让机器像人一样"看懂"屏幕,而不是"记住"屏幕。

实在Agent的ISSUT(Intelligent Screen Semantic Understanding Technology)智能屏幕语义理解技术,是这条路线的代表性实践。

4.1 技术架构:双引擎驱动

实在Agent的核心由两大引擎构成:

  • TARS流程垂直大模型:作为"大脑",负责语义理解、意图识别、任务拆解与动态决策。与通用大模型不同,TARS针对1000余种企业软件和10000余个常用场景进行了专项预训练,在制造业、金融等场景中任务拆解准确率达84.16%,动作映射准确率达86.87%。

  • ISSUT智能屏幕语义理解:作为"眼睛",通过视觉-语义联合建模实时解析屏幕画面,识别所有可交互元素的业务含义,不依赖API和坐标。

两者形成"思考-行动"双循环架构------TARS负责任务规划,ISSUT+RPA负责界面执行,执行结果实时回传给TARS验证,形成闭环。

4.2 ISSUT的工作原理:从视觉特征到语义操作

ISSUT的技术实现可以分为三个层次,这是理解它为什么能替代API和坐标脚本的关键。

第一层:视觉特征提取

ISSUT通过轻量级CV模型实时捕获屏幕画面,检测所有可交互元素------按钮、输入框、下拉菜单、表格区域、弹窗标题。与传统OCR不同,ISSUT不仅提取文字内容,还分析每个元素的形状、颜色、相对位置关系以及层级结构。

这一步的输出不是"坐标(800, 400)",而是一个多维度的视觉特征向量,包含元素的外观属性、空间定位和上下文关系。

第二层:语义映射与场景建模

视觉特征向量被送入大语言模型进行语义推断。一个典型场景:当任务指令为"提交报销申请",模型在界面上看到"提交"和"保存草稿"两个按钮时,会根据按钮颜色(提交通常为蓝色高亮)、位置(位于表单右下角)以及语言习惯(提交是完成性动作,保存草稿是暂存性动作),准确判断点击目标。

这一步的关键依赖于TARS模型在企业软件领域的预训练积累------它"见过"足够多的企业软件界面,知道在特定业务场景中哪些元素通常承担什么角色。这种预训练知识使得语义映射不再需要人工配置规则。

第三层:动态操作生成

基于语义理解结果,Agent实时生成操作序列并通过RPA执行引擎完成真实操作------点击、输入、拖拽、数据抓取。整个过程不需要预先定义任何UI元素选择器。

在v7.3.4版本中进一步推出的TARS AI元素定位技术,通过多模态编码、语义锚点生成与动态匹配优化,实现即使元素的低级属性(如ID、class、坐标)全部改变,只要承担的交互功能不变即可精准命中。这意味着界面改版后,只要业务语义不变------比如按钮从"确认"改叫"确定",从方角矩形变为圆角矩形------Agent仍能自适应操作。

4.3 技术对比:三条路线的本质差异

技术维度 API集成 传统RPA(坐标脚本) 屏幕语义理解(实在Agent)
系统兼容性 仅限有API的系统 依赖DOM/坐标,界面变动即失效 任意图形界面,跨操作系统
维护成本 接口变更时需重新对接 极高,UI变动即需修脚本 低,语义不变即自适应
对开发者的要求 需要接口开发能力 需要编写和维护脚本 自然语言驱动,无需编码
老旧系统支持 不支持 有限支持,稳定性差 全面支持
信创环境适配 取决于接口迁移 坐标定位大面积失效 语义定位自动适配

五、生产环境验证

屏幕语义理解方案已在多个行业的真实生产环境中得到验证。

在制造业,国内包装龙头裕同科技部署实在Agent后,构建了覆盖客服跟单、采购、计划物控、仓储库存、财务等7大业务模块的数字员工矩阵。通过ISSUT技术,Agent打通了ERP、MES、WMS、SRM等异构系统,实现了订单履行全流程的自主协同,无需任何API对接。

在金融业,中国农业发展银行在信创环境下部署实在Agent,覆盖总行及全国各一级分行10余个处室的报表下载、邮件汇总、反洗钱等流程自动化场景。在反洗钱排查中,Agent从核心系统调取客户信息、登录反洗钱平台进行分析、接入外部数据库进行制裁名单匹配,全链路跨系统操作由ISSUT驱动完成,每一步操作自动留痕满足审计要求。

在信创适配层面,实在Agent已全面兼容龙芯、飞腾、海光、兆芯、鲲鹏等国产CPU,适配麒麟、统信、鸿蒙等国产操作系统,通过中国信通院可信AI智能体平台与工具评估最高评级5级。

六、对开发者的启示

屏幕语义理解技术的成熟,正在改变跨系统自动化的工程范式。

对开发者而言,这意味着三件事。第一,老旧系统不再是自动化的禁区。 无论是PowerBuilder开发的C/S客户端、还是国产化替代后自研框架的桌面软件,只要能显示在屏幕上,就能被操作。第二,维护成本的结构性下降。 语义定位方案将界面变化的维护成本从"每次人工修脚本"降至"自动适配",长期TCO差距可达数倍。第三,开发门槛的降低。 业务人员通过自然语言描述即可生成流程,不再需要等IT排期写代码。实在Agent已推出免费社区版,个人开发者可零成本上手体验。

从API集成到坐标脚本,再到屏幕语义理解,跨系统自动化技术正在经历第三次范式转移。这一次,机器终于开始像人一样"看懂"屏幕了。

相关推荐
z200509301 小时前
【linux学习】linux下进程状态和环境变量的解析
linux·运维·学习
工业机器人销售服务1 小时前
光学镜片无尘加工转运:遨博机器人万级洁净间作业,完成镜片清洁镀膜上下料
机器人·自动化
comcoo2 小时前
OpenClaw 本地部署避坑指南|环境配置 + 故障排查全流程
运维·人工智能·openclaw安装包·open claw部署
红茶要加冰2 小时前
四、ansible的templates
linux·运维·服务器·ansible
云飞云共享云桌面2 小时前
企业降本增效新思路:SolidWorks共享部署实战经验分享
运维·服务器·网络·人工智能·3d·自动化
Bert.Cai2 小时前
Linux uname命令详解
linux·运维·服务器
电商API_180079052472 小时前
价格波动预警|用API实时监控淘宝京东商品价格,实现自动化竞品调价与捡漏
大数据·运维·数据库·人工智能·数据挖掘·自动化
佚明zj2 小时前
Ubuntu 24.04 安装 Fcitx5 拼音输入法教程
运维·服务器·ubuntu
红茶要加冰2 小时前
五、ansible的流程控制
linux·运维·服务器·ansible