AI 大模型,让手机真正开始「智能」

经过十几年的发展,大部分智能手机系统都已走向完善,功能愈发趋同。

但这只是表象。实际上,各家厂商都在积蓄力量,酝酿革新。今年,随着大模型的迅速应用落地,进化的号角也终于开始吹响。

这场革命必定与大模型息息相关,但又不只关乎大模型。目前大模型领域的主流,都是围绕服务端部署展开。想让智能手机与大模型结合,到底意味着什么?有什么局限和优势?

想理解这个问题,需要回到更早的时候。

去年,OPPO 在 ODC2022 上发布了自研智慧跨端系统「潘塔纳尔」。起初它给人的感觉还略显抽象,但过去一年,潘塔纳尔已经实现了初步落地。通过智慧跨端和泛在服务两大体验,对下实现跨设备的协同,对上支撑了不同应用间服务的智能流转。

刚刚结束的 ODC2023 上,OPPO 正式推出 AndesGPT,将AIGC 能力与潘塔纳尔结合,融入了 ColorOS 14。表面上,OPPO 早已布局的大模型和智慧跨端系统是两套不同的技术底座,但在今天,它们却产生了重要的化学反应。

这幅手机应用、交互革命的未来蓝图,正在一点点变得完整。

01

系统「解耦」,

让服务与数据融合

去年夏天,OPPO 首次推出了自研智慧跨端系统「潘塔纳尔」。

当时大部分人的注意力都放在「跨端」这个概念上,认为 OPPO 准备做的事,主要是不同硬件之间的数据流转、功能接力。比如「手机上复制,电脑上粘贴」、「手机上接到电话,在平板上接听」等功能......

但实际上,过去一年,OPPO 通过潘塔纳尔做到的最重要的一件事,是像一座桥梁,通过泛在服务和智慧跨端,把系统、应用到服务做了深层次的打通。

从智能手机诞生之日起,用来组织功能的单位就是 App。早期的智能手机系统,以 iOS 为代表,只有两个核心层级:一层是桌面,排列着一个个 App 的图标;一层是 App,就是点开 App 后所有的功能。

当年苹果最早喊出了「每个需求都有一个 App 来解决」(There's an app for everything)的口号。

随着移动互联网生态的发展,App 的生态也终于走向饱和,很多 App 都开始变得臃肿,出现了大量的功能重叠。

对用户来说,臃肿的 App、重复的功能越来越成为一种负担。为了一个小功能,就要在 App 间反复跳转,也变得非常麻烦。典型场景包括一边回复消息,一边关注外卖的配送进度;在检查邮件、浏览网页的时候,同时看地图导航......

App 是智能手机最关键的功能组织形态,但不应该是唯一的形态,更不应该是一个完全封装的系统。想要优化 App 的体验,就必须进行「系统解耦」。

这个问题一直存在,所以 Android 很早就推出了「小组件」,尝试在用户界面层面解决。但早期的小组件,完全出于 App 开发者自愿开发,并没有得到充分推动。

而 OPPO 在推出「潘塔纳尔」后,以一个更开放的姿态参与进来,将整个系统解耦,变成了一个个原子化服务,以人为中心,凭借情境感知与计算能力为人提供合适的服务,智能显示在手机桌面上,手表上,甚至通过耳机播报。

过去一年,潘塔纳尔已经针对出行、外卖、导航、快递等应用场景,推动了「泛在服务」落地。首批支持的 App 包括支付宝、美团,这次 ColorOS 14 又支持了小红书、携程、去哪儿。

利用泛在服务,用户可以更灵活、便捷地调取服务,减少不必要的操作步骤。

这件事并不只有 OPPO 一家在做,苹果 iOS 的「即时动态」、「小组件」,也是在做类似的事情。从系统中解耦出 App 的一项项「服务」,增加配置的灵活性,更高效地利用手机信息的内容和优先级,降低用户的认知、操作负担,已经是行业趋势。

与此同时,只是做到让服务跳出「App」以外其实并不足够,存在于 App 内的文件数据也会由于不同系统生态导致体验割裂,例如 iPhone 可以打开在微信上收到的 keynote,但 Android 却没办法。这种安卓生态与苹果系统之间类似的割裂每天都在上演。

这样的情况也通过「智慧跨端」正在逐步得到解决。潘塔纳尔通过一个 OPPO 账号打破数据壁垒,实现数据采集,跨端调用,让服务和数据不局限于手机,而是可以实现多设备多系统之间的流转。这使得服务能够流转出现在用户的不同设备及系统上:手表、平板、电脑、耳机、电视、汽车......随时触手可及。

举个例子,上个月的 OPPO Find N3 手机发布会上,苹果系统办公软件格式的文件,可以快速在安卓手机上打开了,而且这个功能无需安装第三方应用。在 ColorOS 14 上通过 PhoneLink,用户可以直接在 Windows 系统上操作使用手机 App,访问手机上的相册,互传文件。

将手机功能的基本组织单位从系统内「App」解耦为「服务」,允许它在多设备间灵活流转,会带来非常深远的变化。

因为随着泛在服务场景的丰富,智慧跨端可流转设备的增加,另一个问题会迅速产生:如何实现准确智能地推荐,让用户可以便捷调用?

这就需要对手机的界面、交互,以及智能推荐的机器学习模型,进行革新升级。

大模型的切入点,出现了。

02

大模型,

不只要「大」

过去一年,大模型发展的核心关键词,就是「大」。

参量是大模型展现出惊人智慧的核心原因,所谓「大力出奇迹」。参数的规模越大、层级越多,大模型就能对数据进行更细腻的理解,最终拟合出更真实的结果。

如果把智慧比作声音,人类智慧是连贯的模拟信号,AI 则像是数字录音回放设备,采样率决定了音质。采样率越高,就与自然的声音越接近,到一定程度,人耳就不再能分辨出区别。同样的,参量够大,AI 就能「骗」过人类。

所以,目前宣布将大模型部署到手机上的厂商,都不同程度地遭到了舆论质疑。很多人认为手机上可以部署的模型,参量不够大。进行多端、多模型部署,反而会带来混乱。

如果大模型应用的目标仅仅是打造出一个「能通过图灵测试,上知天文,下知地理的人工智能」,那确实是,参量决定一切。

但实际上,一个模型是否实用,并不是靠参量来判断的。一切模型,最终都是为了模拟一部分现实,推演、拟合出合理、正确的结果,满足需要即可,并不能武断地说「越大越好」。

对这个问题,手机厂商有更深的认识,一个典型例子是语音助手。

语音助手的核心模型,就是要把用户发出的声音波形,拟合成自然语言。这个模型的复杂度和运算量,对于早期的智能手机来说已经很大了,大部分手机芯片跑不动。所以早期的语音助手,都会将用户语音指令的声音波形,发送到云端,由服务器上的模型识别成指令后,再发回手机执行。

但随着手机上 NPU(神经引擎)的算力发展,以及对声音识别模型的简化,手机厂商发现,也可以把这个模型部署到本地,直接让 NPU 来跑。它带来的好处也很实际:响应速度变快了,无网络环境也可以用,且增强了隐私安全性。

谷歌率先将 Google Assistant 的识别模型缩小到 500M 大小,部署在了手机本地

目前大模型应用主要以生成式 AI 为主,并未进入那些更接地气的复杂场景。当大模型应用真正触及到用户需求的细枝末节时,会有更多问题出现,其中最关键的两个就是「数据安全」和「响应速度」。

从这个角度,就不难理解 OPPO 为什么在推出 AndesGPT 的时候,如此笃定地采用了「端云协同」的技术架构。

从十亿参量到千亿参量,OPPO 计划部署一系列不同参数规模的大模型,兼顾响应速度、安全性,同时追求提升大模型的能力上限。

通过端云分工,AndesGPT 会根据对指令、任务需求的梯度理解,来智能调用不同模型。比如用户的指令只是查询手机内一个联系人,那就通过端侧模型迅速响应,如果用户问的是更复杂的知识,就通过云端大模型,生成更复杂,准确的回答。

AndesGPT 的能力覆盖非常广阔,从「智能摘要」、「智能消除」,到基于语义的多模态信息搜索,加深对用户个性化习惯的理解、记忆......

据 OPPO 内部透露,这些能力也将会支持端侧化,目前他们已经在端侧跑通 13B(130 亿)参量模型,突破了端侧大模型的能力上限。这些模型能力,加上智能手机十亿级的用户规模,将展开大模型应用的广阔未来。

03

智能手机的二次革命

从潘塔纳尔,到 AndesGPT,OPPO 展示了自己推动变革的决心。

ODC2023 上,OPPO 还宣布,计划将「对话式交互」引入到各个系统应用,简化用户的用机体验。

「对话式交互」,会很容易让人联想到 2017 年前后的 voice-first(语音优先)风潮。当时很多人都认为智能音箱、语音助手会成为下一代人机交互的关键。但风潮迅速席卷之后,又迅速衰退下去。

其中一大原因就在于,过去的智能语音助手,无论是部署在音箱还是手机上,对语义的理解能力都有限,能调用的数据和服务更有限。到最后,它能实现的功能与智能手机相比,依然只能算沧海一粟。

但这一次,变革围绕系统、应用到服务展开,依靠大模型深入。

从 ColorOS 的发展蓝图里就能看到,它一方面通过潘塔纳尔对系统解耦,带来泛在服务和智慧跨端,便于用户在 App 之外调用功能;同时又通过 AndesGPT,基于自然语义理解用户需要,推动「对话式交互」发展。

OPPO 软件工程事业部副总裁李杰在接受采访时表示,OPPO 希望通过 AndesGPT 为用户提供一个类似「超级助理」的产品。

这正是手机利用大模型的优势所在。

一方面,手机可以利用本地的数据去理解用户,其中很多是最贴近用户私人生活的数据,获得授权后,这些数据可以直接成为 prompt 的「语境」;另一方面,手机可以利用各种本地接口、模块,调用更多 App 的功能。

举一个简单的想象。当用户问聊天机器人「我晚上应该吃点什么?」时,如果不详细写在 prompt 里,那些部署在云端的聊天机器人就不会知道用户的籍贯民族,口味营养的偏好,更难以调用相关的服务。最后大概率只能给出一些较泛化的图文食物推荐。这个情况,无论把模型的参量提升到什么程度,都很难改进。

但如果利用部署在手机上的大模型,可能并不需要参量多大,就可以基于用户的位置、时间、历史订单记录,甚至是运动健康数据,来给出推荐。给出的推荐可以是食谱,可以是一个通向点评 App 的链接,以至于直接调用外卖软件的服务模块,生成一个订单,用户一键确认发送,也完全可能。

这是一个最基本的想象,类似的场景还有很多。可以说,越是贴近用户生活的,简单而具体的需求,手机在结合大模型之后,辅助用户的效果就会更好更便捷。

借助大模型,使用手机将不再是一个需要「学习」的过程,用户只需用自然语言表达自己的需求即可。OPPO 目前基于潘塔纳尔融合大模型后,在 ColorOS 14 上推出的「用机助手」就已经迈出了第一步,通过「对话」理解用户需求,帮助用户解决日常高频使用的复杂设置,将传统交互方式升级为更智能更便捷的对话方式。

它的应用逻辑是,潘塔纳尔先将各种复杂的用机设置,组合构建成面向用户需求的「原子化能力」,再通过 AndesGPT 理解用户需求之后,去匹配对应的能力并完成设置,仅手机的设置功能就覆盖了近 400 项。

所以这场变革,既是从「界面交互」到「对话交互」的转变,更是从「用户学习使用计算机」到「计算机主动理解用户需要」的转变。

这件事,OPPO 已经迈出了第一步。

相关推荐
矢量赛奇17 分钟前
比ChatGPT更酷的AI工具
人工智能·ai·ai写作·视频
KuaFuAI25 分钟前
微软推出的AI无代码编程微应用平台GitHub Spark和国产AI原生无代码工具CodeFlying比到底咋样?
人工智能·github·aigc·ai编程·codeflying·github spark·自然语言开发软件
Make_magic34 分钟前
Git学习教程(更新中)
大数据·人工智能·git·elasticsearch·计算机视觉
shelly聊AI39 分钟前
语音识别原理:AI 是如何听懂人类声音的
人工智能·语音识别
源于花海42 分钟前
论文学习(四) | 基于数据驱动的锂离子电池健康状态估计和剩余使用寿命预测
论文阅读·人工智能·学习·论文笔记
雷龙发展:Leah42 分钟前
离线语音识别自定义功能怎么用?
人工智能·音频·语音识别·信号处理·模块测试
4v1d1 小时前
边缘计算的学习
人工智能·学习·边缘计算
风之馨技术录1 小时前
智谱AI清影升级:引领AI视频进入音效新时代
人工智能·音视频
sniper_fandc1 小时前
深度学习基础—Seq2Seq模型
人工智能·深度学习
goomind1 小时前
深度学习模型评价指标介绍
人工智能·python·深度学习·计算机视觉