主流手机pc品牌的端侧模型部署梳理

已面向市场用户真实部署的端侧模型 --- 品牌/设备级汇总

品牌 / 产品线 端侧模型是什么(自有 or 别人家) 参数量级 / 体积(可核查口径) 主要跑在什么硬件单元 已落地的具体端侧功能(用户真用到的)
Apple iPhone 15 Pro+、全系 iPhone 16、M系 iPad/Mac 自有:Apple Foundation Models --- AFM 3 Core + AFM 3 Core Advanced AFM 3 Core ≈ 3B(dense)AFM 3 Core Advanced ≈ 20B 级稀疏/MoE,用 **IFP(Instruction-Following Pruning)**把大部分专家权重存 NAND、按 prompt 路由少量进 DRAM,激活约 1--4B 参数/步 Apple 自研 Neural Engine(NPU);更高阶模型解锁给最高配 Apple Silicon 系统 Writing Tools(改写/缩写/校对)· 邮件 & 通知摘要 · 照片 Clean Up(局部生成补全)· 新版 Siri 多轮/上下文理解(端侧理解 + 超复杂才走 PCC)· 智能回复;所有云端跳转走 Private Cloud Compute,端到端加密、处理完清内存
Google / Pixel Pixel 8 Pro、Pixel 9 全系(8/8a 需开发者选项) 自有:Gemini Nano ,跑在 Android AICore 系统服务 Nano 作为系统级基础模型由 AICore 管理分发,数据本地处理、可离线,AICore 按 Private Compute Core 原则隔离、无直连互联网 Pixel Tensor TPU;广义上也走 AICore 对 NPU 的硬件加速路径 Gboard Smart Reply / Magic Compose(上下文改写)· Recorder 摘要 · Call Notes 通话转录摘要 · Scam detection 来电语义风险警示 · TalkBack 图像描述(多模态版在 Pixel 9+)等均由 AICore/Gemini Nano 提供本地推理能力
Samsung Galaxy S24/S25 系、Z Fold6/Flip6 等(One UI 的 Galaxy AI) 双轨:自研 Gauss 轻量端侧能力 + 借 Google AICore 的 Gemini Nano(可在设置里切「仅设备端处理」) 端侧语言主干多落在 3B 级范围(Gauss 轻量 + Nano 的 1.8B/3.25B 类变体);Samsung 强调 Knox 加密、数据不出设备 骁龙 8 系 NPU / Exynos NPU;AICore 走系统服务层 **Live Translate / Interpreter / Chat Translation(消息翻译)**可离线跑 · 三星键盘 Writing style & grammar 基础改写 · 通话实时翻译走本地 ASR→翻译→TTS链路;Generative Edit / Sketch-to-Image / Note Assist 深度摘要等更重任务倾向云侧
华为 Mate 60/70 系、Pura 70/80 系、Mate X5/X6 等(HarmonyOS / 小艺) 自有:盘古大模型轻量化端侧版本,下沉到 OS AI 子系统与智能体框架层(HMAF/意图引擎思路) 官方对外的可核查口径更多落在「轻量化压缩、本地推理时延 < 50ms、体积压到 GB 级」的工程指标,而非对外公布精确"B 数" 麒麟 NPU / Ascend NPU + MindSpore Lite 等端侧推理引擎 小艺作为系统智能体做意图理解/跨服务调度 · 相册 AI 修图/消除类 · 文档摘要/本地问答 · 多语种离线翻译 · 方言识别合成 · 主动情景感知(基于本地感知+意图层,敏感数据不出设备)
vivo / iQOO X100 系、S18 系、Neo9 系、后续旗舰/次旗舰(OriginOS / 蓝心小V) 自有:BlueLM 矩阵 BlueLM-7B 为首款端侧部署的较大版本(X100 首发);后续主推 BlueLM-3B(≈30亿参数) :官方口径 内存占用约 1.4GB、出词速度约 80字/s、功耗约 450mA 级,并强调 AIIA/泰尔实验室相关认证 骁龙 / 天玑 NPU(DSP/APU 联合调度) 蓝心小V 对话入口(侧滑/悬浮/图标)· 文档/文章摘要与问答(本地) · AI 相册消除 · 图像多模态问答(辅助向)· 写作润色/信息提取
OPPO / OnePlus Find X7 系(ColorOS / 小布 + AndesGPT) 自有:AndesGPT(AndesGPT-Tiny 为端侧载体) 对外发布口径:70亿参数级 模型经 4位(INT4)量化把"原本约 28GB 权重大小压到约 3.9GB"来做端侧部署;并与联发科合作走 APU/NPU 加速 天玑 9300 APU + GPU/HTP 联合加速(NPU 路线) AI 通话摘要/智能提炼 (通话录音→转录→要点,强调本地存储不传云)· AIGC 消除/相册主体移除与补全 · 小布助手写作/头脑风暴类辅助(轻量推理端侧、复杂升云)
Honor Magic 旗舰系(MagicOS / YOYO) 核心自研路线(Magic 多模态 7B 级口径对外披露)+与高通联合深度调优 与高通 Hexagon NPU 联调:落地端侧低bit量化 →模型存储省 30% 、推理速度**+15%、功耗-20%**;并做向量化检索让检索性能大幅提升 骁龙旗舰 Hexagon NPU(NPU 联调为核心卖点) 端侧多模态感知驱动的 YOYO 智能体场景 · 任意门/意图拖拽理解 · UI 层"AI 追色/语义编辑"等由端侧模型参与的视觉-语言链路
Motorola / 联想 razr / edge 部分机型 不自研底层 :走 Android AICore → Gemini Nano 这条官方系统通道 取决于设备是否进入 Google 的 AICore 白名单/支持矩阵(一般要 Android 14+、较强 NPU、足够 RAM) 骁龙 NPU(Hexagon)间接通过 AICore 调度 与 Pixel 一致的 AICore 能力面:Smart Reply/摘要/ASR/诈骗检测等系统级原子能力(不同机型开放程度由 OEM 决定)
Windows Copilot+ PC(Surface Laptop/Pro Copilot+、ThinkPad T14s、Dell Latitude 7455、HP OmniBook X、Samsung Galaxy Book4 Edge、ASUS/VivoBook S 15、Acer Swift 14 AI、Lenovo Yoga Slim 7x...) 自有(MS):Phi Silica (Phi 家族的 NPU 特化 SLM),并通过 Windows ML / Windows AI API 给系统与应用用 4-bit 权重量化 ;短提示首 token 约 230ms ;吞吐约 20 tok/s ;NPU 上下文处理单次约 4.8 mWh;上下文 2k(走到 4k) NPU 专核:Snapdragon X Elite/Plus(40+ TOPS)为主;Intel Core Ultra Series 2 / AMD Ryzen AI 300 也进入 Copilot+ 体系 Studio Effects (背景虚化/自动取景/眼神接触)纯 NPU 常驻 · Live Captions + 实时翻译 系统级 · Paint Cocreator 端侧小扩散渲染 · Photos Super Resolution NPU 加速 · OS 散布的本地摘要/重写(Word/Outlook 本地路径)· 开发者可通过 Windows AI API / 共享 ONNX Runtime 加载自定义量化模型

一、Apple(iPhone / iPad / Mac)

端侧模型:AFM 3 Core 和 AFM 3 Core Advanced

  • 模型归属:苹果自研,叫 Apple Foundation Models(AFM),不是别人的模型
  • 参数规模:AFM 3 Core 约 30亿参数 (~3B),AFM 3 Core Advanced 约 200亿参数 MoE架构 (等效,实际存储和内存占用远低于200B裸参数),两者都通过**2-bit/4-bit量化感知训练(QAT)**压缩后在 A 系列/M 系列芯片的 Neural Engine(NPU) 上跑
  • 覆盖范围:iPhone 15 Pro及更新、全系iPhone 16、M系iPad、Apple Silicon Mac(Intel Mac不行)

用户实际用到的功能(系统内置,非第三方App):

  • Writing Tools:选中任意文字 → 改写语气/缩写/校对,全程本地推理
  • 邮件摘要 & 通知摘要:锁屏通知折叠成一句话,邮件线程提炼要点,本地处理
  • 照片工具:照片里的"Clean Up"(消除路人杂物),局部生成补全,原像素不出设备
  • Siri AI(改名后的新版):多轮对话、跨App理解意图、语音+图像多模态理解,端侧重构后离线响应速度提升一个量级;算力不够时自动跳到 Private Cloud Compute(苹果自研服务器芯片,端到端加密,处理完即刻清内存)
  • Genmoji / Image Playground 的轻量生成部分:端侧+云端混合

**关键点:**苹果的策略是把模型做成OS底层的 Foundation Models framework,任何App开发者可以通过官方API调用这个端侧模型,而不是让用户"打开一个AI App"。


二、Google(Pixel 系列)

端侧模型:Gemini Nano

  • 模型归属:谷歌自研,Gemini 家族的最小成员,不是借用第三方
  • 参数规模:两个变体------**Nano-1 约18亿参数(1.8B)**和 Nano-2 约32.5亿参数(3.25B) ,统一用 4-bit量化 ,磁盘占用约 1GB ,首token延迟 < 100ms
  • 运行位置:集成在 Android 系统层的 AI Core 系统服务 里,跑在 Pixel 的 Tensor TPU / 骁龙旗舰的 NPU / 联发科 APU 上,100%可离线,数据不出设备

**已部署到的设备:**Pixel 8 Pro、Pixel 9全系(预启用自动下载),Pixel 8/8a需手动开开发者选项

用户实际用到的功能:

  • Gboard Smart Reply / Magic Compose:键盘上下文→智能回复建议/改写语气(WhatsApp、Messages等)
  • Pixel Recorder 摘要:录音→3行要点提炼,本地转录
  • Call Notes(通话转录摘要):打完电话自动生成通话要点
  • Scam Detection(诈骗电话实时检测):Nano实时分析来电语义模式→弹出警告,纯端侧不传音频到云
  • TalkBack 图像描述:无障碍场景,相机画面→端侧描述图像内容(Pixel 9+多模态版)

三、Samsung 三星(Galaxy S / Z 系列)

端侧模型:双轨制------三星自研 Gauss 轻量版 + 谷歌 Gemini Nano(via Android AICore)

  • 模型归属:既有自研(Gauss/Samsung Gauss),也有直接集成谷歌的 Gemini Nano 作为系统底层AI Core的推理引擎。在 S25上升级 One UI 8.5 后可观察到系统里明确出现了 "AI Core 语言大模型(1.46GB,Gemini Nano纯文本版)" 和 "AI Core 多模态大模型(1.51GB,Gemini Nano多模态版)" 两个组件
  • 参数规模:端侧主力在 3B级(Gauss轻量端 + Nano-2的3.25B),三星自己的 Gauss Large 走云端
  • 运行位置:骁龙8系/Exynos的NPU,模型数据加密本地存储

用户实际用到的功能:

  • 通话实时翻译(Interpreter / Live Translate):对方说外语→本地ASR→本地翻译→本地TTS,全程可选纯离线模式,这是Galaxy AI最核心的端侧卖点
  • 通话摘要/转录:打完电话一键生成要点+待办项,内容加密存在本地
  • AI 消除 & 生成式相册编辑:圈选主体/路人→局部inpainting,端侧视觉模型为主(复杂重绘可能升云)
  • Chat Assist(语气改写):三星信息App内,走 Gemini Nano 端侧做文本改写
  • 即圈即搜(Circle to Search):长按导航条→圈选屏幕→系统截屏流+OCR+视觉编码(编码部分端侧,搜索结果走Google后端)
  • 来电诈骗检测:Gemini Nano端侧语义分析,不受地区限制

四、华为(Mate / Pura / MatePad 系列,纯血鸿蒙)

端侧模型:盘古大模型(端侧轻量版)嵌入鸿蒙系统底层,驱动小艺智能体

  • 模型归属:华为自研盘古,不是第三方模型
  • 参数规模:公开口径中端侧主力为轻量化多模态版本(大致7B级,部分资料称端侧可跑稀疏化百亿级推理) ,依托麒麟芯片NPU(麒麟9010/9020系)做本地执行;鸿蒙7.0(纯血)将盘古6.0核心原生预埋在OS底层
  • 运行位置:麒麟NPU沙箱内执行,数据全程本地闭环,不上云

用户实际用到的功能:

  • 小艺进化为伴随式系统智能体(不只是"你说它答"):跨App任务执行------例如帮你找到昨天的会议纪要文件→识别参会人→打开邮件→填内容
  • AI修图/路人消除/相册AI编辑:端侧视觉模型本地完成
  • 文档AI总结 & 本地问答:拖入PDF/文档→本地提炼
  • 多语言实时离线翻译:30+语种,断网可用
  • 方言识别与合成(粤语/川渝/吴语等十余种):端侧语音模型
  • 星盾安全层的AI反诈/异常识别:本地模式匹配+轻量推理
  • 主动情景感知(意图驱动):感知场景→提前建议(如上车→导航日历下一目的地),轻量模型待机功耗极低

**覆盖机型:**Mate 60/70全系、Pura 70/80全系、Mate X5/X6折叠屏为先,后续批次下沉到nova系


五、小米 / Redmi(澎湃 OS 系)

端侧模型:MiLM(小米自研大模型),品牌名也叫"澎湃AI大模型"/超级小爱背后模型

  • 模型归属:小米自研 MiLM 系列,同时也有开源策略对外(MiMo系列)
  • 参数规模:端侧主力 3B / 7B 两个档,旗舰机(骁龙8至尊版/至尊版级)通过量化压缩跑 7B级端侧,内存占用优化做得比较激进,覆盖机型据小米口径从旗舰(小米15/16/17系)一路下沉到Redmi多款中端机
  • 运行位置:骁龙NPU / 澎湃C系列芯片(若有)的AI加速器

用户实际用到的功能(通过"超级小爱"和OS级入口):

  • 自然语言多轮对话 + 跨应用任务链:例如"把昨天的会议录音转成文档→提取关键信息→同步到日历→分享给团队",小爱自动调录音/文档/日历/消息多个App
  • AI写作辅助 & 文本润色
  • 端侧识屏/文字提取/OCR翻译:离线也能做
  • 会议录音转写 + 纪要生成:本地ASR + 端侧摘要
  • AI影像增强:人像优化/夜景/路人消除等端侧视觉模型

补充说明:小米是国内覆盖机型最广的(号称近40款含中端/千元机都有),代价是低配机型的端侧能力做了裁剪,"有但不厚"。


六、vivo / iQOO(OriginOS,蓝心大模型)

端侧模型:BlueLM(蓝心大模型),vivo 100%自研

  • 模型矩阵:BlueLM-1B / BlueLM-3B(主力)/ BlueLM-7B(端侧可唤醒)/ 70B~175B走云端
  • 参数规模:vivo公开讲过工程结论------3B是端侧"合理尺寸" (旗舰剩余内存约12GB场景下),7B也能跑但prefill延迟需要做Prefill/Decode拆分+投机解码等工程手段才能压到可接受范围。3B版本经他们实测内存占用约1.4GB级(INT4量化后) ,功耗约450mA级
  • 首次搭载:X100系列(2023.11首发7B端侧),之后S18系、iQOO Neo9系跟进;2024.10后主推3B版全面铺开

用户实际用到的功能(蓝心小V入口,侧滑/悬浮球/图标/原子组件均可唤出):

  • 蓝心小V对话:文字/语音/图片拖拽/文档拖拽 → 本地理解+摘要/问答
  • 文档/文章AI摘要:本地处理,不上传原文
  • AI相册消除(AIGC消除):端侧视觉模型
  • 一句话视频剪辑:意图理解→模板匹配→生成
  • 图像问答(视障辅助向的多模态):BlueLM-V-3B多模态变体在天玑9300上实测部署

七、OPPO / OnePlus 一加(ColorOS,安第斯 AndesGPT)

端侧模型:AndesGPT,OPPO自研

  • 模型归属:OPPO自研 AndesGPT 系列
  • 参数规模:这家最出名的动作是 Find X7系列率先把70亿参数模型端侧部署 ------正常70B要28GB内存,OPPO用 INT4量化压到约3.9GB ,再加Al Boost推理引擎优化+与高通/联发科联合芯片层调优,做到200字首token 0.2秒(宣称领先幅度大),摘要上限14000字
  • 模型分层:Tiny(十亿级常驻轻量)/ Turbo / Titan(云端千亿级)

用户实际用到的功能:

  • AI通话智能摘要 (最核心落点):通话录音→端侧转录→端侧提炼主题+要点+待办,生成内容完全本地存储不传云
  • AIGC相册消除/主体抹除:端侧视觉模型
  • 小布助手升级为AI助手:头脑风暴/SWOT/创作辅助等(轻量推理端侧+复杂升云)
  • 后续机型(Find X8/X9系)结合潮汐引擎+NPU专项加速,拓展到AI图像生成填充等

注意:OPPO的"端侧70B"不是说70B全量常驻内存,而是INT4量化后的7B-class权重块在NPU地址空间里被高效管理,按需激活推理。


八、Honor 荣耀(MagicOS,YOYO / Magic大模型)

端侧模型:Magic大模型(自研路线),官方口径端侧多模态7B级 + 与字节豆包有合作(部分上层能力)

  • 模型归属:主体自研Magic系端侧模型 ,荣耀走的路线是和高通联合深度调优------行业首批落地低bit量化方案,模型存储省30%、推理提速15%、功耗降20%
  • 参数规模:端侧主力 7B级多模态,配合骁龙8至尊版/旗舰NPU的Hexagon张量加速器

用户实际用到的功能:

  • YOYO智能体:场景化主动服务(学你习惯→通勤时推日程+路况+导航;到公司楼下自动连WiFi开工作群等)
  • "任意门"意图拖拽理解:拖一段文字/图片→系统端侧理解→推荐操作
  • 端侧多模态感知:文本+图像+本地向量化检索(毫秒级),检索性能提升显著
  • 跨App智能调度:意图理解→拆解步骤→逐个调App执行

九、Motorola / 联想,以及通过 Google AICore 间接跑端侧模型的品牌

这类品牌自己不造大模型 ,端侧AI能力走的是谷歌的 Android AICore → Gemini Nano 通道:

  • Motorola(razr 60 Ultra等):系统内置AICore,Gemini Nano端侧可用,功能对齐Pixel的Smart Reply/Recording摘要/Scam Detect等子集
  • 小米部分国际版Honor部分机型:同样在符合条件的NPU硬件上可通过AICore调Gemini Nano做基础文本摘要/改写
  • 硬件门槛:Android 9+、带NPU/TPU加速器、约12GB RAM是Gemini Nano完整版的实际及格线(8GB机型只能跑XXS裁剪版或干脆不可用)

十、PC 端:Windows Copilot+ PC(微软官方端侧SLM)

端侧模型:Phi Silica(微软自研SLM,Phi家族的NPU特化版)

  • 模型归属:微软自研,不是OpenAI模型,不是Copilot Chat本身。Phi Silica是专门给Copilot+ PC的NPU跑的系统组件
  • 参数级别:属于SLM(小语言模型) ,4-bit权重量化,context长度2K(4K在路上),短prompt首token约230ms ,吞吐约20 token/s ,NPU上下文处理单次仅耗4.8mWh------几乎不拖累CPU/GPU
  • 硬件:Snapdragon X Elite/Plus(40+ TOPS NPU)为主;Intel Core Ultra Series 2和AMD Ryzen AI 300系也加入Copilot+阵营

用户实际触到的端侧功能:

  • Windows Studio Effects:背景虚化/自动取景/眼神接触校正 → 纯NPU常驻,不耗GPU,视频会议不掉帧
  • Live Captions + 实时翻译:系统级,任何播放/通话音频都可触发,端侧流水线
  • Paint Cocreator(生成填充/擦除):端侧小扩散模型渲染
  • Recall(屏幕快照语义索引):本地截图→本地embedding→本地向量数据库检索(可选功能,争议大但架构是端侧)
  • Photos Super Resolution:NPU加速本地AI超分
  • 开发者可通过 Windows AI APIs(Windows App SDK) 把自己的量化模型也加载到NPU上跑

一张纯文字的"谁用谁的模型"速查

  • Apple → 全是自己的(AFM 3B / 20B MoE),跑在Neural Engine上
  • Google/Pixel → 全是自己的(Gemini Nano 1.8B/3.25B),跑在Tensor TPU或通用NPU via AICore
  • Samsung → 自研Gauss轻量 + 借谷歌的Gemini Nano(AICore系统服务),双轨
  • 华为 → 全是自己的(盘古端侧轻量版),跑在麒麟NPU,鸿蒙底层预埋
  • 小米 → 自己的(MiLM 3B/7B),跑在骁龙NPU
  • vivo → 自己的(BlueLM 1B/3B/7B),跑在骁龙/天玑 NPU
  • OPPO → 自己的(AndesGPT,7B INT4→3.9GB端侧),跑在骁龙/天玑 NPU
  • Honor → 主要自研(Magic 7B级),联合高通NPU调优,部分上层能力接豆包API
  • Motorola/部分国际版安卓 → 不自研底层,走谷歌AICore调Gemini Nano
  • Windows Copilot+ PC → 微软自己的Phi Silica(SLM),跑在Qualcomm/Intel/AMD的NPU上

如果你接下来想追某一个品牌往更底层挖------比如"OPPO那套INT4量化+SwappedAttention到底怎么解决KV Cache首字延迟的"、"Apple的2-bit QAT + 低秩adapter恢复精度"的具体论文/技术白皮书出处、或者"哪些功能其实只是营销包装的传统CV模型而非真正LLM"------你指定哪一家,我再定向深查。

相关推荐
Java面试题总结2 小时前
C#12 中的 Using Alias
开发语言·windows·c#
虾壳云智能2 小时前
阿里云百炼 API 配置 OpenClaw 2.7.9 环境搭建
人工智能·阿里云百炼·open claw安装·open claw教程
Xzh04232 小时前
AI Agent 学习路线(Java 后端方向)
java·人工智能·学习
醒醒该学习了!2 小时前
视觉与声音大模型(理论篇)
人工智能
Cloud_Shy6183 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 33 - 35)
开发语言·人工智能·笔记·python·学习方法
救救孩子把3 小时前
HyperFrames by HeyGen 入门教程
人工智能·视频生成·heygen
JS菌3 小时前
AI Agent 沙箱双层防护体系:从权限过滤到内核隔离的完整实现
前端·人工智能·后端
字节跳动开源3 小时前
Viking AI 搜索 CLI—— 开发者的合法“外挂”
人工智能·agent
GlobalInfo3 小时前
新能源汽车整车控制器(VCU)产业洞察:市场现状+发展前景(2026版)
人工智能·汽车