Siri打开了手机的嘴,豆包接通了大脑和手脚

吃上豆包的手机先迈一步。

作者|古廿

编辑|杨舟

12月1日,字节跳动豆包团队发布了一段视频,演示了豆包手机助手的一系列能力。

从视频中的场景看,豆包手机助手的能力覆盖跨应用执行流程、屏幕内容读取、多模态识别、系统级唤醒、跨平台比价下单、远程控制汽车等操作。在开启记忆功能后,执行路径所需的询问也明显减少,具备一定连续任务能力。

这些能力几乎覆盖了过去数年间用户对于"AI手机助手"想象中的典型使用场景。因此尽管目前仍处于技术预览阶段,但还是使语音助手这个沉寂多年的手机能力,被重新放到了主流视野的讨论范围。

这款手机助手并非单一的App,而是以和手机厂商合作的形式推出。目前演示所用机型来自豆包与中兴合作的一款设备,前者主导AI助手的产品定义与交互体验,后者负责硬件研发与制造。

发售仅一天,12月2日据中兴商城显示,首款搭载豆包助手的合作机型已显示"售罄"。对于备货和销量数据,努比亚方面对外公开表示,"目前暂时没有销量数据,因为是第一款,少量对外发售。"

在二手平台闲鱼上,该机标价普遍在4200元至4999元之间,较官方定价溢价700至1500元不等。豆包方面表示,目前并没有开发手机的计划,现阶段推进的方向是与多家手机厂商进行合作落地。

手机助手并非新鲜概念,其在智能手机中存在已久,但定位始终模糊。几乎所有主流厂商在系统更新中都延续了语音助手的入口设计,但它从未成为用户购机决策的关键因素。

背后的原因并不复杂。在多数用户的真实体验里,语音助手能回应,却帮不上忙。过去十年来,语音助手的能力上限基本停留在识别语句、回答问题、打开应用,长期游走在对话交互的界面。

从时间线来看,2011年Siri随iPhone4s推出;2016年Google Assistant发布;国内手机厂商也在此后不断补齐本地化能力。从用户视角看,它们仍然属于同一代产品:可以理解意图,但无法真正代替用户完成任务。

近期行业出现了久违的变化。先是谷歌上个月宣布将在2026年停用Assistant语音助手,把系统级交互入口迁移至Gemini;接着国内本月,字节发布豆包手机助手预览版,实现让AI执行跨应用操作,而不是仅停留在语义对话。

这两件事虽然相隔不同市场,但方向一致:手机助手或许将要走出嘴勤手笨的体验困局了。

01 从一问一答到跨应用执行

乔布斯曾在介绍Siri时说,它不是搜索引擎,而是人工智能。如果语音助手具备学习能力,且长期与数亿用户交互,照理说,它的表现应越来越接近自然语言交流,而不是反复回到"对不起,我不明白你在说什么"的原点。

2011年,iPhone 4S发布会上,Siri首次亮相,标志着语音交互作为系统级能力被引入智能手机。Siri的英文全称是"Speech Interpretation & Recognition Interface",也即强调语义识别而非命令触发。

在当时,这种一问一答的模式代表了人机交互的一次方向性突破。接下来的十年,这个方向并没有持续推进。

以Siri为代表的语音助手,其功能范围不断从语音控制电话、短信,扩展至语音字幕、智能通话、识屏、家居联动等系统能力。但最核心的能力:理解并执行任务,一直停留在语音问答阶段,几乎没有实质性进展。

这也是为什么,豆包手机助手的演示视频能重新激发行业关注:它不再是对话界面,而是执行界面。产品的核心转向,是将语音助手从"信息返回"升级为"任务完成",将用户语义直接转译为一整套操作路径。

它关注的不是陪你说学逗唱解闷,而是可以帮助你完成什么任务。

例如,在比价购物场景中,用户只需说一句:"帮我把这瓶洗发水在我所有购物软件上比价并选最便宜的下单",助手便会自动在淘宝、京东、拼多多、抖音商城等App中依次搜索、比价、自动领券,筛出最低价后停在支付页,等待用户确认,避免自动扣款带来的误操作或越权风险。

再如图片处理,用户说"把这张照片里的人去掉""把背景清理一下",助手可以自动识别目标区域、调用图像编辑工具并完成操作,无需用户打开App逐步执行。

甚至在更复杂的跨场景链路中,豆包也游刃有余。用户可一次性发出多个指令,如:"订阅这个播客的更新并加入播放列表 → 打开特斯拉前备箱 → 订一个今晚八点半的餐厅",助手将依次在对应App中完成操作,串联起本地应用与线下行为。

手机助手从回答问题,到完成任务,这一步花了十二年才真正走出来。

02 原生的AI交互体系

能够实现跨应用、多场景执行的手机助手,并不只是语义理解能力的堆叠。支持豆包手机助手能力的,是两个体系的同时成立:模型的执行规划能力和系统层面的原生接入能力。

首先是模型层面。豆包模型不仅做语义理解,还做界面理解与操作规划。它能够识别屏幕中的文本、按钮、布局、步骤逻辑,从而生成稳定的操作路径。最终呈现出不是"告诉用户怎么做",而是"手机助手完成一系列点击和输入"。

这与传统语音助手停留在响应指令不同,本质上是一套GUI操作能力。

这套能力的核心是豆包在推理、视觉理解、图像创作、视频生成、语音等方面的性能达到国际一流水平,图形界面操作能力更是在多项权威评测中获得业界最佳成绩,可以像人类一样操作手机,完成各种复杂任务。

其次是交互层面。豆包手机助手并不是一个独立App,而是通过与手机厂商合作,在操作系统层获得了调用权限。这意味着模型不再运行在应用层,而是能够调度系统资源,跨应用组织动作。

在豆包手机助手发布的技术预览版演示视频中可以看到,AI助手在与手机厂商深度合作后,可以将豆包大模型融入原生交互体系,在手机使用的任意环节实现直接调用。

从演示视频看,两种能力结合后呈现的交互方式发生了明显变化:

用户无需复制内容或切换App,在任意界面都可以直接发起询问;屏幕内容会被即时理解,例如对照片提问"这个景点在哪""是从什么视角拍的",助手直接返回信息;原豆包生态中的语音通话、视频通话、屏幕共享等能力被系统级集成,仅需双击AI键即可进入实时对话。

两种体系能力的叠加下,豆包手机助手不再是一个额外功能,而是成为融入系统底层的能力。这意味着,大模型第一次不是作为"插件"存在,而是开始嵌入到系统级交互之中,成为手机操作链路中的一个原生AI节点。

03 AI原生手机的完全体

从演示内容来看,目前展示的能力还可以自定义个性化。豆包手机助手提供可选的记忆功能。在用户授权情况下,助手可以通过常用的个人偏好,提供更符合个人习惯的执行路径规划。

同时,豆包还探索了操作手机Pro模式。相较于基础模式依赖GUI Agent的逐步点击,Pro模式可以直接调用系统工具,并结合记忆数据规划操作方案。这一模式的关键转变,在于从逐条指令执行转向对用户真实意图的整体把握。

发布视频中的示例体现了这种差异:

用户说"帮我给女儿推荐几个礼物放进购物车",在基础模式下,这是一个至少包含多个搜索、筛选和下单动作的复杂任务;而在Pro模式中,如果记忆中已记录孩子的年龄和兴趣,助手会直接聚焦与其匹配的商品并加入购物车,无需用户逐条补充条件。

跨应用执行解决了能做,记忆和Pro模式尝试解决该怎么做才合理。

需要强调的是,尽管此次演示内容为真实录制,但豆包仍将其定义为技术预览版本。官方提示,大模型当前阶段仍存在不确定性,无法保证在所有场景中稳定复现。这意味着方向已经清晰,但距离产品层面的完全体,仍有一定距离。

**不过,即使尚在早期阶段,豆包手机助手在"执行权的可控性"上,已体现出一套较为完整的系统设计。**当前演示中至少呈现出三层可控机制:

其一,任务状态可视化。当手机由助手执行任务时,屏幕将呈现动态光效提示;即便用户中途接管操作,屏幕边框仍显示任务提示,避免后台运行造成的信息不对称。

其二,状态栏胶囊机制。在无前台界面的情况下,所有任务进展均通过胶囊形式呈现在状态栏,涉及支付或授权等关键节点时,系统亦会发出明确提醒。

其三,信息补充机制。用户可在任务执行过程中随时进入交互界面,通过补充入口增补必要信息,保障任务结果的准确性和实用性。

这些机制背后的核心逻辑并非追求"最大限度自动化",而是在明确边界下实现"透明、可中断、可协商"的自动执行能力。

值得注意的是,豆包手机助手的出现并不是一项孤立现象,而是在全球智能手机产业中出现的同类指向。

谷歌上月宣布2026年停用Assistant,将系统级入口迁移至Gemini;Gemini与三星合作的系统级Agent也正在落地测试。行业共识逐渐显现:手机厂商+大模型厂商的深度合作,而不是厂商单独构建语音助手,是新一代手机落地AI的主路径。

从助手入口向系统能力跃迁,手机行业关于AI操作系统的探索,可能正进入到更清晰的阶段。

相关推荐
Lancker13 小时前
定制侠 一个国产纯血鸿蒙APP的诞生过程
android·华为·智能手机·鸿蒙·国产操作系统·纯血鸿蒙·华为鸿蒙
新诺韦尔API1 天前
手机三要素验证接口详细技术对接指南
大数据·智能手机·api
铁蛋AI编程实战1 天前
Falcon-H1-Tiny 微型 LLM 部署指南:100M 参数也能做复杂推理,树莓派 / 手机都能跑
java·人工智能·python·智能手机
AirDroid_cn1 天前
双机党:一台小米一台华为,怎样相互远程控制?
智能手机
玉梅小洋3 天前
手机 App 云端存储云服务选型指南
人工智能·智能手机·手机·工具开发·手机app开发
玉梅小洋3 天前
手机 App 跨平台框架统一目录构建
智能手机·手机·app开发
东哥笔迹4 天前
高通骁龙Android手机平台EIS基础pipeline(二)
智能手机
jian110584 天前
Android studio 调试flutter 运行自己的苹果手机上
flutter·智能手机·android studio
小锋学长生活大爆炸4 天前
【工具】手机控制iPixel LED屏实现转向和刹车联动、语音控制显示内容
智能手机·工具·led·车机·智能·diy·ipixel
Boxsc_midnight4 天前
【openclaw+imessage】【免费无限流量】集成方案,支持iphone手机+macos
ios·智能手机·iphone