豆包手机为什么会被其他厂商抵制？它的工作原理是什么？

之所以会想写这个，首先是因为在知乎收到了这个推荐的问题，实际上不管是 AutoGLM 还是豆包 AI 手机，会在这个阶段被第三方厂商抵制并不奇怪，比如微信和淘宝一直以来都很抵制这种外部自动化操作，而非这次中兴的 AI 豆包手机出来才抵制，毕竟以前搞过微信自动化客服应该都知道，一不小心就会被封号。

另外也是刚好看到， B 站的 UP 主老戴深入分析了豆包手机的内部工作机制的视频，视频介绍了从 AI 助手如何读取屏幕、捕捉数据和模拟操作的真实流程 ，所以对于 AI 手机又有了个更深刻的认知，在这个基础上，更不难理解为什么 AI 手机这种自动化 Agent 会被第三方厂商抵制，推荐大家看原视频：b23.tv/pftlDX8 。

那么豆包的 AI 手机是怎么工作的呢？实际上和大家想的可能不一样，它并没有使用无障碍服务（Accessibility Service），而是使用了更底层的实现方案：

豆包手机利用底层的系统权限，直接从 GPU 缓冲区获取原始图像数据并注入输入事件，而非依赖截屏或无障碍服务，此外手机还在一个独立的虚拟屏幕中执行后台任务，并将图像低频发送至云端进行推理，云端则返回操作指令。

在视频里， UP 主通过深度拆解豆包手机，分析手机在系统层面的服务分工、数据抓取和模型推理路径，例如aikernel被 UP 主推断为手机端侧 AI 的核心进程，内存占用特性（Native堆高达160M）表明它可能是一个本地AI推理框架：

另外 aikernel 异常高的Binder数量，证明有大量外部进程通过 RPC 调用它，进一步印证了其系统级服务的角色。

而 autoaction是豆包手机 AI 自动操作的关键，这个 APK 权限允许直接从 GPU 渲染的图形缓冲区读取数据，而不是通过上层截图：

而且目前看，豆包手机的 AI 能够捕获受保护的视频输出，这意味着它可以绕过银行 App 等应用的反截图/录屏限制 ，因为很多银行 App 很多是通过 DRM（数字版权管理）或应用内安全设置来防止截屏和录屏：

另外，Agent 在操作手机过程也不是直接使用系统的 Accessibility Service ，而是通过调用系统隐藏API injectInputEvent 来控制手机， AI 通过 INJECT_EVENTS 权限直接注入输入事件来模拟屏幕点击，权限高于无障碍 API，并且是系统签名：

同时，豆包手机在执行自动操作时，会利用一个与物理屏幕分辨率相同的"无头"虚拟屏幕在后台运行，且拥有独立的焦点，不影响用户在前台的操作，这其实就是内存副屏的概念，虚拟屏幕的画面由 GPU 合成后，对应的缓冲区信息会直接被autoaction消费，再次证实 AI 无需通过截图 API 即可获取屏幕内容：

最后，豆包手机在自动化操作时，会频繁地（每3到5秒）与 obriccloud.com （字节的服务）服务器通信，发送约 250K的单帧图片进行推理。

云端在接收图片后，会返回约 1K 的数据，内容是告诉手机下一步要执行的 7 种指令之一，如打开应用、点击、输入、滑动等等，整个自动化 Agent 的推理和路径规划主要在云端完成，云端思考后将执行步骤指令发回本地执行，本地任务很轻：

那么，这整个过程你看下来有什么感觉？如果你是第三方厂商，你会不会同样抵制这种数据收集和处理的行为？特别是绕过现有大家对系统 API 的理解，这种操作途径是否能被友商们接受？

所以目前的这种操作，被微信和淘宝抵制很正常，不管是隐私的边界，还有安全操作的规范，用户对于自己某个产品内容被收集的信息程度，这些都还处于蛮荒状态，数据安全和隐私的边界范围还不可控，并且 Agent 的托管行为，也明显侵犯到了友商们的利益链条。

就像是 UP 主说的，AI Agent 的出现将动摇移动互联网的底层商业逻辑------注意力经济 ，使"注意力"这一硬通货的重要性降低，实际上换作另一个概念就是碎片化时间：

以前你的碎片化时间都是被各种 App 消费了，比如广告和沉浸引导，但是 Agent 的出现，它明显将这部分时间给托管了，那么数据和时间都被 Agent 服务收集，对于友商们来说，不就是成了单纯的功能性服务商了吗？

另外，说实话像 AutoGLM 这种功能目前的支持，最大受益者不是用户而是灰产，不管是用诈骗还是黄牛，他们都是这种自动化下的第一受益者，所以规范和监管，特别是安全和隐私条款是必须，比如就像 UP 主说的：

豆包手机的 AI 在自动化操作过程中，哪些数据会被发送到云端服务器？

很多人对于 agent 和自动化能力的范畴并不理解，它们可以获取隐私的边界是什么，安全操作的规范是什么，这些都是需要支持和统一边界。

比如 Android 16 实际上官方是有规划 Appfunction Api 的，它的目的是让应用只公布自己开放给 AI 的能力，这样也许边界感更强。

当然，从历史的角度看，Agent 手机势不可挡，就像谷歌自己未来新的 Android PC 系统 Aluminium OS 也是会结合 Gemini Agent 等特点，这是历史进程的必然，但是这个过程中，如何统一规范和监管这是很重要的过程，毕竟 AI 的效应和能力，可比之前更加强，就像 UP 主说的，新的 AI 寡头可能会形成更中心化、更强势的权力，且马太效应更明显 。

那么，你觉得未来谁家的 Agent 设备会成为新时达的寡头？或者不是手机而是眼镜？

视频链接

b23.tv/pftlDX8