2025年12月,AI端侧领域迎来两大里程碑式突破 :阶跃星辰开源了GELab-Zero-4B-preview模型及配套工程基建,实现了4B级参数模型在主流安卓设备上的轻量化部署;同日,字节跳动豆包团队发布豆包手机助手技术预览版,首次在手机端实现持久化本地记忆与跨应用操作能力,两者共同推动端侧智能助手从"能不能用"迈向"能否规模化落地"的关键阶段 。
一、阶跃4B Agent模型的技术特点与一键部署实现
阶跃开源的4B Agent模型(GELab-Zero-4B-preview)在技术上取得了多项突破,为端侧智能助手的普及提供了重要支撑。首先,该模型在轻量化设计方面表现出色,通过优化算法和推理框架,实现了4B参数模型在消费级硬件上的高效运行。研究团队在ScreenSpot、OSWorld、MMBench、Android World等多个开源基准测试上对GELab-Zero-4B-preview进行了全面评估,结果显示该模型在多项测试中超越其他主流模型,拿下同尺寸SOTA(最佳表现) 。

其次,阶跃模型在跨设备兼容性方面实现了重大突破。传统端侧AI面临的主要挑战之一是安卓生态的高度碎片化,不同品牌与系统版本的设备需要处理多设备ADB连接、依赖安装、权限配置、推理服务部署等繁琐流程,工程成本高昂。阶跃团队通过构建完整的推理工程基建,解决了这些"脏活累活",宣称能够"覆盖主流Android 9+、RAM 4GB以上设备" 。
第三,阶跃模型在任务执行能力上表现出色。该模型采用类似MobiAgent的三层架构(Planner规划师-Decider决策者-Ground执行者),支持ReAct闭环、多智能体协作以及定时任务等多种工作模式 。在实际测试中,该模型能够流畅执行复杂任务,如在外卖平台同时采购跨品类、不同规格和数量的商品,或是在企业福利APP中领取餐券,展现出强大的泛化能力 。
一键部署是阶跃模型的最大亮点。该模型提供统一部署流水线,自动处理环境依赖和设备管理,用户只需简单的配置即可获得完整的端侧Agent体验 。这一能力主要通过以下技术实现:
- 轻量级本地推理框架:支持4B模型在消费级硬件上运行,兼顾低延迟与隐私保护 。
- 多设备任务分发系统:通过ActTree结构记录并复用历史操作轨迹,减少重复推理,提升效率。在模拟真实用户使用习惯(80%请求集中在20%任务)的测试中,动作复用率可达60%-85%,反映在实际任务上,就是2到3倍的性能提升 。
- 无障碍服务优化:通过继承Android的AccessibilityService类,监听AccessibilityEvent事件,实现跨应用界面的精准操作 。
阶跃模型的自建评测基准AndroidDaily也是一个重要创新点。该基准聚焦在现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择在这些类别中具有代表性(高频使用、应用商店日活排名靠前)的主流应用进行测试 。评测结果显示,GELab-Zero-4B-preview在AndroidDaily测试中准确率达到73.4%,在移动端复杂任务中表现优秀 。
二、字节跳动豆包手机助手的端侧持久记忆与跨App操作技术
2025年12月1日,字节跳动豆包团队发布了豆包手机助手技术预览版,标志着AI大模型与移动设备交互方式的一次重要演进。豆包手机助手的最大创新在于实现了端侧持久记忆与跨App操作功能 ,这两项技术突破有望重塑人机交互体验。

端侧持久记忆技术是豆包手机助手的核心竞争力之一。该技术采用AES-256或XChaCha20加密算法,结合安全存储区域(如Android Keystore)实现本地数据保护 。用户数据在设备端加密存储,不上传云端,且可一键关闭记忆功能,确保用户对数据的完全控制权 。这一技术解决了传统云侧AI面临的隐私泄露风险,同时保证了记忆数据的持久性和可访问性。
豆包手机助手的持久记忆功能已应用于多个场景,如停车位置记录、历史行为分析(如行程规划)、跨任务上下文关联等 。例如,用户可以说"帮我整理下周的行程",助手会自动同步日历、航班信息和会议安排,生成详细计划 。这种能力使得AI助手能够从"工具"向"伙伴"转变,提供更个性化的服务体验。
跨App操作技术是豆包手机助手的另一大创新。该技术通过与手机厂商在操作系统层面的合作,实现了AI像人类一样操作手机的能力 。具体实现方式包括:
- 无障碍服务基础 :继承AccessibilityService类,监听AccessibilityEvent事件,通过
findAccessibilityNodeInfosByText或findAccessibilityNodeInfosByViewId定位控件,模拟点击/输入操作 。 - 系统级授权:与中兴等手机厂商合作,获得更高权限的系统级API支持,减少用户授权步骤 。例如,在豆包与中兴合作推出的工程样机nubia M153上,用户可以通过语音、侧边键或豆包Ola Friend耳机直接唤醒助手,实现更便捷的交互 。
- 安全边界设计:高敏感操作(如支付)需用户手动确认,符合"最小必要"原则,避免滥用权限 。
豆包手机助手的跨App操作能力在实际场景中表现突出。例如,用户在社交媒体上看到商品,只需说出"帮我在全平台比价下单",助手即可在多个电商平台搜索同款商品,对比价格和规格,自动领券后选择最低价的商品下单 。这种能力使得用户无需频繁切换应用,只需一个指令就能完成复杂任务,大大提升了操作效率。
三、不同厂商端侧AI助手的技术路线与行业定位比较
当前手机端侧智能助手领域形成了多元化的竞争格局,主要厂商的技术路线和行业定位各有特色。下表对主要厂商的端侧AI助手进行了比较:
| 厂商 | 模型名称 | 参数量 | 技术特点 | 行业定位 |
|---|---|---|---|---|
| 阶跃 | GELab-Zero-4B-preview | 4B | 开源轻量化Agent模型,支持主流Android 9+设备一键部署 | 开源模型提供方,定位为"开发者赋能平台" |
| 字节跳动 | 豆包手机助手 | 未公开 | 端侧持久记忆,跨App操作,本地数据加密存储 | 互联网巨头,定位为"轻量化工具型助手",依赖厂商合作 |
| OPPO | AndesVL | 0.6B-4B四档 | 多模态大模型,支持GUI能力和多语言 | 手机厂商,定位为"系统级智慧体验",聚焦影像、生产力和文娱场景 |
| vivo | BlueLM | 10亿-70亿 | 1+N架构,支持端侧本地化和端云两用 | 手机厂商,定位为"全局智能辅助",强调开源生态和系统级整合 |
| 华为 | 小艺助手 | 未公开 | 自研NPU芯片+鸿蒙系统深度整合,强调硬件协同与隐私保护 | 手机厂商,定位为"系统级智能助理",依托自研芯片和操作系统 |
| 荣耀 | MagicGUI | 7B | 全球首个端侧语音大模型,6语种包嵌入仅0.8GB内存 | 手机厂商,定位为"端侧多模态大模型",支持跨App操作 |
从技术路线来看,手机厂商普遍采用多模态模型和系统级整合策略 。OPPO的AndesVL模型包含0.6B-4B四档,支持多模态(视觉、语言、GUI)和低比特量化,实现本地复杂推理 。vivo的蓝心大模型BlueLM采用1+N架构,基座模型支持文本总结、本地化功能,70亿模型为端云两用,更高参数模型依赖云端 。华为的小艺助手依托自研麒麟芯片(NPU)和鸿蒙系统,实现端侧大模型深度整合,强调硬件协同与系统级权限 。荣耀的MagicGUI模型为7B多模态感知模型,通过创新的注意力机制与决策策略结合,将内存占用压缩至800MB,节省75%存储空间,支持流式语音识别能力 。
互联网巨头(如字节跳动)则通过生态合作扩展至多品牌手机 ,定位为"轻量化工具型助手"。豆包手机助手目前主要与中兴手机合作,通过系统级授权获得无障碍服务权限,支持跨App操作 。字节跳动明确表示暂无自研手机计划,正与多家手机厂商洽谈,以"生态合作"形式将豆包手机助手整合进不同品牌机型中 。
开源模型提供方(如阶跃)则聚焦开发者赋能 ,提供轻量化Agent模型和完整推理工程基建,降低端侧Agent开发门槛 。阶跃的GELab-Zero-4B-preview模型通过AndroidDaily评测基准验证其性能,准确率达到73.4%,在移动端复杂任务中表现优秀 。
从行业定位来看,手机厂商普遍以系统预装为核心,通过硬件与软件协同打造"专属智能助理" 。OPPO提出"高效&专属"的AI价值主张,聚焦用户高频需求场景,如系统交互、影像、生产力及文娱 。vivo则构建"1+2+N"的智能系统体验,"1"是蓝心大模型,"2"是系统全局智能辅助应用"蓝心小V"和自然语言对话机器人"蓝心千询","N"是开源生态 。
互联网巨头和开源模型提供方则更注重技术普适性和开发者生态 。字节跳动通过生态合作扩展至多品牌手机,提供跨App操作能力 。阶跃则通过开源模型和基建,支持手搓党一键部署,降低端侧Agent开发门槛 。
四、手机端侧智能助手的未来发展趋势与用户体验提升方向
手机端侧智能助手正迎来前所未有的发展机遇,未来几年将从技术突破、场景扩展和用户体验三个方面实现质的飞跃。
在技术趋势方面,端侧模型参数量将持续增长,但受限于硬件,需依赖云边端协同。目前,3B模型已能实现之前8B模型的效果(在GUI任务场景下,3B蒸馏模型可接近8B通用模型表现),但未来可能通过混合量化方案实现7B+参数的本地运行。硬件方面,高通最新AI芯片和国产化芯片(如华为麒麟)将推动端侧算力提升,结合存内计算技术降低功耗 。多模态与Agent融合将成为主流,实现视觉、语音、触觉交互的全面整合 。
在应用场景方面,端侧智能助手将向更多垂直领域扩展。医疗健康领域,端侧AI已应用于本地健康数据分析,如"叮呗"APP通过手机本地摄像头和AI模型完成皮肤病初步诊断(98种常见病),准确率达副主任医师水平 。教育领域,端侧AI在离线环境下的实时生成能力将提升学习效率,如课堂中通过手机端实时生成教案、图像 。工业领域,边缘计算设备(如华为Atlas 500)在钢板检测中将识别效率提升70%,误检率降至0.3%,但属于边缘盒子/工控机场景,与手机端侧无关 。
在用户体验方面,端侧智能助手将实现更自然、更主动的交互方式。语音、手势和眼动交互将在短期内成为主要方式,而脑机接口仍处于长期探索阶段,非侵入式技术的通信速率尚不明确,离消费级手机交互至少差3-4个数量级 。长期记忆和上下文关联能力将使AI助手更加个性化,能够记住用户的偏好和习惯,提供更精准的服务 。主动任务执行将成为标配,AI助手能够根据用户的场景和需求,主动提供服务和建议,如在用户到达机场时自动提醒登机时间,在购物时自动比价并推荐优惠 。
未来几年,端侧智能助手将面临三大关键挑战:碎片化适配、端云协同优化和长期记忆管理。针对碎片化适配问题,通用推理框架(如阶跃的MCP)和系统级API(如华为鸿蒙、OPPO潮汐引擎)将提供解决方案。针对端云协同优化问题,分布式推理技术和边缘计算将平衡性能与隐私 。针对长期记忆管理问题,联邦学习和差分隐私技术将确保数据安全的同时提升模型效果 。
五、结语:端侧智能助手的未来展望
手机端侧智能助手正从"效率工具"向"高效专属的智能助理"转变 ,这一转变不仅体现在技术能力的提升,更体现在用户体验的革新。阶跃开源4B Agent模型和字节跳动豆包手机助手的发布,标志着端侧智能助手正从"能不能用"迈向"能否规模化落地"的关键阶段 。
未来,随着芯片技术的持续进步和AI算法的不断优化,端侧智能助手将实现更强大的功能和更自然的交互方式。手机将成为用户的"专属智能助理",能够理解用户的场景和需求,主动提供服务和建议 。这一转变将重新定义人机交互的边界,让AI真正成为用户生活的一部分,而非一个独立的工具。
端侧智能助手的发展也将推动手机产业的变革 。手机厂商将从硬件提供商向AI能力提供商转型,通过开放端侧AI API,为第三方应用提供AI能力支持 。这一转变将形成新的产业生态,让手机成为AI应用的中心枢纽,连接各种智能设备和服务。
最后,端侧智能助手的普及也将带来隐私保护的革新 。通过端侧加密存储和联邦学习技术,用户数据将得到更安全的保护,同时AI模型也能从这些数据中学习,提升服务效果 。这一平衡将推动AI技术的健康发展,让技术真正服务于用户,而非牺牲用户隐私。
总之,手机端侧智能助手正处于快速发展阶段,未来几年将迎来技术突破、场景扩展和用户体验提升的全面升级。这一趋势不仅将改变手机的形态和功能,更将重塑人机交互的未来 ,让AI真正成为用户生活中的伙伴,而非一个冰冷的工具。