DeepSeek 后更大的机遇:AI 端侧推理创新 | 智在终端

每年开春的 "新机潮",今年出尽风头的是 DeepSeek。

一时之间,几乎所有主流消费终端厂都在短时间内完成 DeepSeek 的接入。

荣耀、OPPO、魅族、vivo、小米纷纷官宣自家 AI 助理上线 DeepSeek-R1 及其满血版;甚至 OPPO 今年新发的旗舰大折叠 Find N5,也强调了对 DeepSeek 的支持。

另一个被掀起鲶鱼效应的是车圈。

一个月内,吉利、比亚迪、奇瑞、岚图、长城、理想等超过 20 家车企宣布接入 DeepSeek,形成汽车与 AI 加速融合的一个切面。

热潮之下是技术洪流不断向前涌动------

AI 正在进入推理创新时代。

如此趋势认知来自高通。DeepSeek 效应从 AI 领域向外辐射,从算法创新逐渐演变成对每个人生活工作的潜在影响。

辐射普罗大众,消费终端是关键桥梁。

由此,在当下节点,一份对 AI 端侧趋势的梳理就变得尤为重要。高通最新发布的白皮书**《AI 变革正在推动终端推理创新》**,已梳理出四大趋势:

  • 先进 AI 小模型已具有卓越性能

  • 模型参数规模正在快速缩小

  • 开发者能够在边缘侧打造更丰富的应用

  • AI 正在成为新的 UI

透过这份行业分析,AI 推理之于终端将产生哪些影响?也就有更明了了。

AI 正在进入推理创新时代

最首要的问题,DeepSeek 这条 "鲶鱼" 究竟改变了什么?

之于行业内,大模型端侧趋势 早已是暗流涌动。在 ChatGPT 爆火后,高通就提出了混合 AI 的概念。

它强调,随着生成式 AI 不断发展,AI 处理必须分布在云侧和终端进行,才能实现 AI 的规模化扩展并发挥其最大潜能。它几乎适用于所有生成式 AI 应用和终端领域,包括手机、笔记本电脑、XR 头显、汽车和物联网。

从当时来看,节省成本是推动混合 AI 架构的主要因素之一。一次 AI 问答所需的成本是传统搜索的 1000 倍,混合 AI 能够通过和终端设备协同算力的方式,降低云端计算的成本。同时兼顾个性化、隐私保护等需求。

这也造成了部分 AI 体验被阉割的问题。由于当时推理 Scaling Law(语言模型中的规模化法则行为)尚未被提出,模型能力与参数规模呈强烈正相关,尽管厂商们也陆续推出小型号模型适应端侧需求,但性能和精度水平仍旧受到限制。

在实际进展上,高通在过去几年先后发布的第三代骁龙 8、骁龙 X Elite 和骁龙 8 至尊版等平台上,开始强化终端芯片对生成式 AI 能力的支持。手机、PC 厂商们在此基础上进一步发力,陆续推出本地支持 AI 能力的新机,AI 端侧应用迎来一波小趋势,不仅手机助手都更加智能化,也衍生出 AI 一键消除路人、AI 语音通话总结等原生 AI 端侧应用。

可以说,在过去几年,端侧 AI 已搭建好初步的框架和地基。若有更强劲的东风,这股新趋势便将进一步爆发。

高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉(Durga Malladi)近期的采访,进一步验证了外界的猜测:

我们在去年 11 月份的时候已经做出了这样的预判,会有越来越多的高质量模型在搭载骁龙平台的终端侧运行,让开发者能够在边缘侧打造更丰富的应用。

果然,在 2025 年,推理模型 DeepSeek-R1 这股东风到来。它从模型层面为困扰端侧 AI 已久的成本问题,提供了全新解决思路。

通过使用思维链推理数据和非推理数据微调,并进行蒸馏,DeepSeek-R1 实现了将推理能力赋予到小规模稠密模型上

这意味着,高质量且小规模的模型并非不可能实现。DeepSeek 一声惊雷过后,这样的模型只可能比人们预想中的还要多、还要实惠

由此,高通对当下趋势进行梳理,在白皮书给出四大值得参考的方向。一方面是为了在发展中总结经验,另一方面也是与行业一起探讨前路方向。

其中,第一点被提及的还是快速进化的 AI 模型。

现如今,不仅模型质量在进一步提高,开发方式其实也在变得更便捷。

经过多年探索,目前 AI 领域内针对不同模型需求,已经形成了诸多范式。

比如针大规模模型,可以使用 MoE(混合专家模型)、SSM(状态空间模型)等架构来降低计算开销,同时保证模型质量;使用思维链和自我验证等,能够大幅提升模型在数学、编码、推理等方面能力;对于小模型,蒸馏技术的普遍应用能够让大模型 "教学" 小模型,保持准确性的同时迁移知识,进一步降低开发难度,一定程度上避免重复造轮子。

其次,从全行业范围看,模型参数规模正在快速缩小

量化、剪枝、蒸馏等技术下,大模型的性能可以很好迁移到小模型上。

基于通义千问模型和 Llama 模型的 DeepSeek 蒸馏版本,在 GPQA 基准测试中,与 GPT-4o、Claude 3.5 Sonnet 和 GPT-o1 mini 等先进模型相比,取得了相似或更高的分数。

此外,让模型更 "浓缩精华" 也是正在发生的趋势。根据 Epoch AI 整理的数据,2024 年发布的大规模 AI 模型中,超过 75% 的模型参数在千亿规模以下。

第三,高****质量模型激增,开发者有了更多选择,边缘侧的 AI 应用正在渗透到普通用户的日常用机习惯中。

比如文档摘要、AI 图像生成和编辑以及实时语言翻译,已经成为如今 AI 手机上的常见功能。影像方面更是可以利用 AI 进行计算摄影、物体识别和场景优化。

这些都得益于 AI 推理在终端侧的广泛普及。

由此更进一步,AI 正在成为新的 UI。

随着大模型入驻手机、PC,传统的屏幕交互正在被变革、颠覆,个性化多模态 AI 智能体可以简化人机交互流程,高效地跨越各种应用完成任务。

比如荣耀去年火出圈的 "一句话点咖啡",就是一个例子。

当然还不止于手机、PC、汽车等消费级终端,未来在机器人、无人机以及其他自主设备上,AI 也有望实现实时决策,在动态的真实环境中实现精确交互。

综上,随着 AI 进入推理时代,终端侧的创新与应用落地被进一步激发,AI 格局甚至都将就此发生改变。

那么问题来了------

AI 推理时代需要什么?

DeepSeek-R1 的蒸馏模型,在问世不到两周时间内就被争相接入各种终端,令不少业内人士都惊叹不已。

而在 DeepSeek 之外,值得关注的是,大部分接入的终端产品都是 "高通芯"

关键的一点是,在 DeepSeek 搅动风云之前,高通就已经进行了前瞻预判:AI 计算处理将从云端向边缘侧扩展

2023 年 5 月,高通发布了《混合 AI 是 AI 的未来》白皮书,其中提到:

AI 处理必须分布在云端和终端进行,才能实现 AI 的规模化扩展并发挥其最大潜能。

而决定进程的影响因素包括:终端能力、性能需求、隐私和安全需求,以及商业模式等诸多因素。

简单归纳,核心回到 3 个问题:

  • 硬件设计是否能满足模型对终端算力的需求?

  • 相比云端模型,终端 "小" 模型是否足够好,足够多,足够便宜?

  • 打通软硬件的 AI Infra(人工智能基础设施,连接算力和应用的 AI 中间层)是否完备,终端侧的生态系统是否健全?

围绕这 3 点,再回溯高通这两年以来的技术布局,不难看出,高通在终端 AI 领域,再次引领了时代之先。

首先,是高性能、高能效的芯片设计

高通长期致力于开发定制 CPU、NPU、GPU 和低功耗子系统,同时拥有封装技术和热设计的技术专长,构成了其行业领先系统级芯片(SoC)产品的基础。

这些 SoC 能够直接在终端侧提供高性能、高能效的 AI 推理。

比如,骁龙 8 至尊版除了在对 AI 最为关键的 NPU 上带来一系列升级,在 CPU 和 GPU 上同样做了不少文章,以更加充分地释放 SoC 的 AI 能力。

包括引入自研 Oryon CPU,应对对时延敏感的 AI 任务,比如实时翻译、AI 助手命令响应等,并负责将 AI 任务分配到其他核心上。

而骁龙 8 至尊版的 Hexagon NPU,目前已经可以支持 70+ Tokens / 秒、4K 上下文的生成能力;并为应对多模态 AI 任务增加了额外的内核。

又比如骁龙 X 系列平台,其专为实现高性能、高能效的生成式 AI 推理而打造的 NPU 核心,对定义全新 AI PC 品类发挥了关键作用。

**△**MWC2025 高通展区画面

其次,是覆盖所有关键边缘细分领域的可扩展性

不仅是手机、PC,在 XR 头显和眼镜、智能汽车,以及工业互联网等诸多终端场景中,高通的身影无处不在,并代表着最先进的技术水平。

**△**MWC2025 中高通展区展出搭载骁龙 XR 平台的终端

而在所有这些场景中,高通始终在更加积极、极致地融入、提升 AI 能力。

比如在本届 MWC 上,高通发布高通跃龙第四代固定无线接入(FWA)平台至尊版,基于高通 X85 打造,支持长达 14 公里的毫米波远程通信------

高通提到,毫米波覆盖范围的扩大得益于 AI 优化和 AI 辅助波束选择技术。

而其流量分类智能网络选择等 AI 功能,也是基于 X85 这颗 5G AI 处理器的 AI 能力实现的。

又比如骁龙数字底盘解决方案,在其情境感知智能座舱系统中使用终端侧 AI,旨在增强汽车安全和驾驶体验。该系统利用先进摄像头、生物识别、环境传感器以及先进的多模态 AI 网络,提供根据驾驶员状态和环境条件而调整的实时反馈和功能。

针对自动驾驶和辅助驾驶系统,高通开发了端到端架构,利用大规模训练数据集,基于真实世界数据和 AI 增强数据的快速再训练、OTA 更新以及包括车内多模态 AI 模型和因果推理在内的先进软件栈,应对现代自动驾驶和辅助驾驶的复杂性。

目前,高通的硬件和软件解决方案已赋能数十亿智能手机、汽车、XR 头显和眼镜、PC 以及工业物联网等终端,为广泛行业带来高性能、经济实惠、快速响应和关注隐私的变革性 AI 体验。

值得关注的是,硬件之外,通过高通 AI 软件栈、高通 AI Hub 和开发者协作,高通已构建起完备的生态系统策略,面向不同边缘终端领域的模型部署提供工具、框架和 SDK,赋能开发者在边缘侧加速 AI 智能体和应用的落地。

也可以这样理解------通过高通生态的支持,开发者面向不同平台进行重复开发时,只需一次开发,即可轻松实现跨多平台高效部署。

毫无疑问,大模型从云端扩展到终端的过程中,蕴藏着巨大的机会------

甚至可以说,这是这场 "模力时代" 变革之中,能最快触达最多人群、引发新爆点的应用领域之一。

而机会总是率先青睐有准备的人,每一次技术变革中,引领潮流的都是有更长远预判,以及孜孜不倦深耕、赋能行业未来的企业、团队。

现在,在 AI 推理创新时代的开端,以高通为代表的技术上游已经站上潮头,亮出越来越令外界惊喜的手牌,推动着整个行业加速发展。

更多的创新创造,正在涌流。

至少终端侧的智能新可能,已经在 2025,初现曙光。

--- ---

相关推荐
汤姆和佩琦16 分钟前
LLMs基础学习(一)概念、模型分类、主流开源框架介绍以及模型的预训练任务
人工智能·学习·算法·分类·数据挖掘
梦里是谁N16 分钟前
以下是基于文章核心命题打造的15个标题方案,根据传播场景分类推荐
人工智能·分类·数据挖掘
lele_ne22 分钟前
【深度学习】宠物品种分类Pet Breeds Classifier
人工智能·深度学习·分类
犀思云22 分钟前
领先AI企业经验谈:探究AI分布式推理网络架构实践
人工智能·分布式·ai网络
shengjk122 分钟前
数据湖的背景、现状与未来
人工智能·后端
Coovally AI模型快速验证24 分钟前
DeepSeek引领端侧AI革命,边缘智能重构AI价值金字塔
人工智能·算法·目标检测·计算机视觉·边缘计算·deepseek
Tezign_space25 分钟前
AI重构电商内容体系:企业如何突破生产、管理、分发三重门?
人工智能·科技·重构·aigc·数字资产管理·内容数字化·内容科技
调皮的芋头25 分钟前
【透视国家的三维棱镜:技术、制度与文化的解构与重构】
人工智能·aigc
夏小悠26 分钟前
从Manus到OpenManus:多智能体协作框架如何重构AI生产力?
人工智能·python·agent·manus·openmanus
pitt199728 分钟前
NexLM 开源系列】让 AI 聊天更丝滑:WebSocket 实现流式对话!
websocket·chatgpt·deepseek·see·大模型集成·流式对话