主流手机pc品牌的端侧模型部署梳理

已面向市场用户真实部署的端侧模型 --- 品牌/设备级汇总

品牌 / 产品线	端侧模型是什么（自有 or 别人家）	参数量级 / 体积（可核查口径）	主要跑在什么硬件单元	已落地的具体端侧功能（用户真用到的）
Apple iPhone 15 Pro+、全系 iPhone 16、M系 iPad/Mac	自有：Apple Foundation Models --- AFM 3 Core + AFM 3 Core Advanced	AFM 3 Core ≈ 3B（dense）；AFM 3 Core Advanced ≈ 20B 级稀疏/MoE，用 IFP（Instruction-Following Pruning）把大部分专家权重存 NAND、按 prompt 路由少量进 DRAM，激活约 1--4B 参数/步	Apple 自研 Neural Engine（NPU）；更高阶模型解锁给最高配 Apple Silicon 系统	Writing Tools（改写/缩写/校对）· 邮件 & 通知摘要 · 照片 Clean Up（局部生成补全）· 新版 Siri 多轮/上下文理解（端侧理解 + 超复杂才走 PCC）· 智能回复；所有云端跳转走 Private Cloud Compute，端到端加密、处理完清内存
Google / Pixel Pixel 8 Pro、Pixel 9 全系（8/8a 需开发者选项）	自有：Gemini Nano ，跑在 Android AICore 系统服务里	Nano 作为系统级基础模型由 AICore 管理分发，数据本地处理、可离线，AICore 按 Private Compute Core 原则隔离、无直连互联网	Pixel Tensor TPU；广义上也走 AICore 对 NPU 的硬件加速路径	Gboard Smart Reply / Magic Compose（上下文改写）· Recorder 摘要 · Call Notes 通话转录摘要 · Scam detection 来电语义风险警示 · TalkBack 图像描述（多模态版在 Pixel 9+）等均由 AICore/Gemini Nano 提供本地推理能力
Samsung Galaxy S24/S25 系、Z Fold6/Flip6 等（One UI 的 Galaxy AI）	双轨：自研 Gauss 轻量端侧能力 + 借 Google AICore 的 Gemini Nano（可在设置里切「仅设备端处理」）	端侧语言主干多落在 3B 级范围（Gauss 轻量 + Nano 的 1.8B/3.25B 类变体）；Samsung 强调 Knox 加密、数据不出设备	骁龙 8 系 NPU / Exynos NPU；AICore 走系统服务层	Live Translate / Interpreter / Chat Translation（消息翻译）可离线跑 · 三星键盘 Writing style & grammar 基础改写 · 通话实时翻译走本地 ASR→翻译→TTS链路；Generative Edit / Sketch-to-Image / Note Assist 深度摘要等更重任务倾向云侧
华为 Mate 60/70 系、Pura 70/80 系、Mate X5/X6 等（HarmonyOS / 小艺）	自有：盘古大模型轻量化端侧版本，下沉到 OS AI 子系统与智能体框架层（HMAF/意图引擎思路）	官方对外的可核查口径更多落在「轻量化压缩、本地推理时延 < 50ms、体积压到 GB 级」的工程指标，而非对外公布精确"B 数"	麒麟 NPU / Ascend NPU + MindSpore Lite 等端侧推理引擎	小艺作为系统智能体做意图理解/跨服务调度 · 相册 AI 修图/消除类 · 文档摘要/本地问答 · 多语种离线翻译 · 方言识别合成 · 主动情景感知（基于本地感知+意图层，敏感数据不出设备）
vivo / iQOO X100 系、S18 系、Neo9 系、后续旗舰/次旗舰（OriginOS / 蓝心小V）	自有：BlueLM 矩阵	BlueLM-7B 为首款端侧部署的较大版本（X100 首发）；后续主推 BlueLM-3B（≈30亿参数）：官方口径内存占用约 1.4GB、出词速度约 80字/s、功耗约 450mA 级，并强调 AIIA/泰尔实验室相关认证	骁龙 / 天玑 NPU（DSP/APU 联合调度）	蓝心小V 对话入口（侧滑/悬浮/图标）· 文档/文章摘要与问答（本地） · AI 相册消除 · 图像多模态问答（辅助向）· 写作润色/信息提取
OPPO / OnePlus Find X7 系（ColorOS / 小布 + AndesGPT）	自有：AndesGPT（AndesGPT-Tiny 为端侧载体）	对外发布口径：70亿参数级模型经 4位（INT4）量化把"原本约 28GB 权重大小压到约 3.9GB"来做端侧部署；并与联发科合作走 APU/NPU 加速	天玑 9300 APU + GPU/HTP 联合加速（NPU 路线）	AI 通话摘要/智能提炼（通话录音→转录→要点，强调本地存储不传云）· AIGC 消除/相册主体移除与补全 · 小布助手写作/头脑风暴类辅助（轻量推理端侧、复杂升云）
Honor Magic 旗舰系（MagicOS / YOYO）	核心自研路线（Magic 多模态 7B 级口径对外披露）＋与高通联合深度调优	与高通 Hexagon NPU 联调：落地端侧低bit量化 →模型存储省 30% 、推理速度+15%、功耗-20%；并做向量化检索让检索性能大幅提升	骁龙旗舰 Hexagon NPU（NPU 联调为核心卖点）	端侧多模态感知驱动的 YOYO 智能体场景 · 任意门/意图拖拽理解 · UI 层"AI 追色/语义编辑"等由端侧模型参与的视觉-语言链路
Motorola / 联想 razr / edge 部分机型	不自研底层：走 Android AICore → Gemini Nano 这条官方系统通道	取决于设备是否进入 Google 的 AICore 白名单/支持矩阵（一般要 Android 14+、较强 NPU、足够 RAM）	骁龙 NPU（Hexagon）间接通过 AICore 调度	与 Pixel 一致的 AICore 能力面：Smart Reply/摘要/ASR/诈骗检测等系统级原子能力（不同机型开放程度由 OEM 决定）
Windows Copilot+ PC（Surface Laptop/Pro Copilot+、ThinkPad T14s、Dell Latitude 7455、HP OmniBook X、Samsung Galaxy Book4 Edge、ASUS/VivoBook S 15、Acer Swift 14 AI、Lenovo Yoga Slim 7x...）	自有（MS）：Phi Silica （Phi 家族的 NPU 特化 SLM），并通过 Windows ML / Windows AI API 给系统与应用用	4-bit 权重量化；短提示首 token 约 230ms ；吞吐约 20 tok/s ；NPU 上下文处理单次约 4.8 mWh；上下文 2k（走到 4k）	NPU 专核：Snapdragon X Elite/Plus（40+ TOPS）为主；Intel Core Ultra Series 2 / AMD Ryzen AI 300 也进入 Copilot+ 体系	Studio Effects （背景虚化/自动取景/眼神接触）纯 NPU 常驻 · Live Captions + 实时翻译系统级 · Paint Cocreator 端侧小扩散渲染 · Photos Super Resolution NPU 加速 · OS 散布的本地摘要/重写（Word/Outlook 本地路径）· 开发者可通过 Windows AI API / 共享 ONNX Runtime 加载自定义量化模型

一、Apple（iPhone / iPad / Mac）

端侧模型：AFM 3 Core 和 AFM 3 Core Advanced

模型归属：苹果自研，叫 Apple Foundation Models（AFM），不是别人的模型
参数规模：AFM 3 Core 约 30亿参数 （~3B），AFM 3 Core Advanced 约 200亿参数 MoE架构 （等效，实际存储和内存占用远低于200B裸参数），两者都通过**2-bit/4-bit量化感知训练（QAT）**压缩后在 A 系列/M 系列芯片的 Neural Engine（NPU） 上跑
覆盖范围：iPhone 15 Pro及更新、全系iPhone 16、M系iPad、Apple Silicon Mac（Intel Mac不行）

用户实际用到的功能（系统内置，非第三方App）：

Writing Tools：选中任意文字 → 改写语气/缩写/校对，全程本地推理
邮件摘要 & 通知摘要：锁屏通知折叠成一句话，邮件线程提炼要点，本地处理
照片工具：照片里的"Clean Up"（消除路人杂物），局部生成补全，原像素不出设备
Siri AI（改名后的新版）：多轮对话、跨App理解意图、语音+图像多模态理解，端侧重构后离线响应速度提升一个量级；算力不够时自动跳到 Private Cloud Compute（苹果自研服务器芯片，端到端加密，处理完即刻清内存）
Genmoji / Image Playground 的轻量生成部分：端侧+云端混合

**关键点：**苹果的策略是把模型做成OS底层的 Foundation Models framework，任何App开发者可以通过官方API调用这个端侧模型，而不是让用户"打开一个AI App"。

二、Google（Pixel 系列）

端侧模型：Gemini Nano

模型归属：谷歌自研，Gemini 家族的最小成员，不是借用第三方
参数规模：两个变体------**Nano-1 约18亿参数（1.8B）**和 Nano-2 约32.5亿参数（3.25B） ，统一用 4-bit量化 ，磁盘占用约 1GB ，首token延迟 < 100ms
运行位置：集成在 Android 系统层的 AI Core 系统服务 里，跑在 Pixel 的 Tensor TPU / 骁龙旗舰的 NPU / 联发科 APU 上，100%可离线，数据不出设备

**已部署到的设备：**Pixel 8 Pro、Pixel 9全系（预启用自动下载），Pixel 8/8a需手动开开发者选项

用户实际用到的功能：

Gboard Smart Reply / Magic Compose：键盘上下文→智能回复建议/改写语气（WhatsApp、Messages等）
Pixel Recorder 摘要：录音→3行要点提炼，本地转录
Call Notes（通话转录摘要）：打完电话自动生成通话要点
Scam Detection（诈骗电话实时检测）：Nano实时分析来电语义模式→弹出警告，纯端侧不传音频到云
TalkBack 图像描述：无障碍场景，相机画面→端侧描述图像内容（Pixel 9+多模态版）

三、Samsung 三星（Galaxy S / Z 系列）

端侧模型：双轨制------三星自研 Gauss 轻量版 + 谷歌 Gemini Nano（via Android AICore）

模型归属：既有自研（Gauss/Samsung Gauss），也有直接集成谷歌的 Gemini Nano 作为系统底层AI Core的推理引擎。在 S25上升级 One UI 8.5 后可观察到系统里明确出现了 "AI Core 语言大模型（1.46GB，Gemini Nano纯文本版）" 和 "AI Core 多模态大模型（1.51GB，Gemini Nano多模态版）" 两个组件
参数规模：端侧主力在 3B级（Gauss轻量端 + Nano-2的3.25B），三星自己的 Gauss Large 走云端
运行位置：骁龙8系/Exynos的NPU，模型数据加密本地存储

用户实际用到的功能：

通话实时翻译（Interpreter / Live Translate）：对方说外语→本地ASR→本地翻译→本地TTS，全程可选纯离线模式，这是Galaxy AI最核心的端侧卖点
通话摘要/转录：打完电话一键生成要点+待办项，内容加密存在本地
AI 消除 & 生成式相册编辑：圈选主体/路人→局部inpainting，端侧视觉模型为主（复杂重绘可能升云）
Chat Assist（语气改写）：三星信息App内，走 Gemini Nano 端侧做文本改写
即圈即搜（Circle to Search）：长按导航条→圈选屏幕→系统截屏流+OCR+视觉编码（编码部分端侧，搜索结果走Google后端）
来电诈骗检测：Gemini Nano端侧语义分析，不受地区限制

四、华为（Mate / Pura / MatePad 系列，纯血鸿蒙）

端侧模型：盘古大模型（端侧轻量版）嵌入鸿蒙系统底层，驱动小艺智能体

模型归属：华为自研盘古，不是第三方模型
参数规模：公开口径中端侧主力为轻量化多模态版本（大致7B级，部分资料称端侧可跑稀疏化百亿级推理） ，依托麒麟芯片NPU（麒麟9010/9020系）做本地执行；鸿蒙7.0（纯血）将盘古6.0核心原生预埋在OS底层
运行位置：麒麟NPU沙箱内执行，数据全程本地闭环，不上云

用户实际用到的功能：

小艺进化为伴随式系统智能体（不只是"你说它答"）：跨App任务执行------例如帮你找到昨天的会议纪要文件→识别参会人→打开邮件→填内容
AI修图/路人消除/相册AI编辑：端侧视觉模型本地完成
文档AI总结 & 本地问答：拖入PDF/文档→本地提炼
多语言实时离线翻译：30+语种，断网可用
方言识别与合成（粤语/川渝/吴语等十余种）：端侧语音模型
星盾安全层的AI反诈/异常识别：本地模式匹配+轻量推理
主动情景感知（意图驱动）：感知场景→提前建议（如上车→导航日历下一目的地），轻量模型待机功耗极低

**覆盖机型：**Mate 60/70全系、Pura 70/80全系、Mate X5/X6折叠屏为先，后续批次下沉到nova系

五、小米 / Redmi（澎湃 OS 系）

端侧模型：MiLM（小米自研大模型），品牌名也叫"澎湃AI大模型"/超级小爱背后模型

模型归属：小米自研 MiLM 系列，同时也有开源策略对外（MiMo系列）
参数规模：端侧主力 3B / 7B 两个档，旗舰机（骁龙8至尊版/至尊版级）通过量化压缩跑 7B级端侧，内存占用优化做得比较激进，覆盖机型据小米口径从旗舰（小米15/16/17系）一路下沉到Redmi多款中端机
运行位置：骁龙NPU / 澎湃C系列芯片（若有）的AI加速器

用户实际用到的功能（通过"超级小爱"和OS级入口）：

自然语言多轮对话 + 跨应用任务链：例如"把昨天的会议录音转成文档→提取关键信息→同步到日历→分享给团队"，小爱自动调录音/文档/日历/消息多个App
AI写作辅助 & 文本润色
端侧识屏/文字提取/OCR翻译：离线也能做
会议录音转写 + 纪要生成：本地ASR + 端侧摘要
AI影像增强：人像优化/夜景/路人消除等端侧视觉模型

补充说明：小米是国内覆盖机型最广的（号称近40款含中端/千元机都有），代价是低配机型的端侧能力做了裁剪，"有但不厚"。

六、vivo / iQOO（OriginOS，蓝心大模型）

端侧模型：BlueLM（蓝心大模型），vivo 100%自研

模型矩阵：BlueLM-1B / BlueLM-3B（主力）/ BlueLM-7B（端侧可唤醒）/ 70B~175B走云端
参数规模：vivo公开讲过工程结论------3B是端侧"合理尺寸" （旗舰剩余内存约12GB场景下），7B也能跑但prefill延迟需要做Prefill/Decode拆分+投机解码等工程手段才能压到可接受范围。3B版本经他们实测内存占用约1.4GB级（INT4量化后） ，功耗约450mA级
首次搭载：X100系列（2023.11首发7B端侧），之后S18系、iQOO Neo9系跟进；2024.10后主推3B版全面铺开

用户实际用到的功能（蓝心小V入口，侧滑/悬浮球/图标/原子组件均可唤出）：

蓝心小V对话：文字/语音/图片拖拽/文档拖拽 → 本地理解+摘要/问答
文档/文章AI摘要：本地处理，不上传原文
AI相册消除（AIGC消除）：端侧视觉模型
一句话视频剪辑：意图理解→模板匹配→生成
图像问答（视障辅助向的多模态）：BlueLM-V-3B多模态变体在天玑9300上实测部署

七、OPPO / OnePlus 一加（ColorOS，安第斯 AndesGPT）

端侧模型：AndesGPT，OPPO自研

模型归属：OPPO自研 AndesGPT 系列
参数规模：这家最出名的动作是 Find X7系列率先把70亿参数模型端侧部署 ------正常70B要28GB内存，OPPO用 INT4量化压到约3.9GB ，再加Al Boost推理引擎优化+与高通/联发科联合芯片层调优，做到200字首token 0.2秒（宣称领先幅度大），摘要上限14000字
模型分层：Tiny（十亿级常驻轻量）/ Turbo / Titan（云端千亿级）

用户实际用到的功能：

AI通话智能摘要 （最核心落点）：通话录音→端侧转录→端侧提炼主题+要点+待办，生成内容完全本地存储不传云
AIGC相册消除/主体抹除：端侧视觉模型
小布助手升级为AI助手：头脑风暴/SWOT/创作辅助等（轻量推理端侧+复杂升云）
后续机型（Find X8/X9系）结合潮汐引擎+NPU专项加速，拓展到AI图像生成填充等

注意：OPPO的"端侧70B"不是说70B全量常驻内存，而是INT4量化后的7B-class权重块在NPU地址空间里被高效管理，按需激活推理。

八、Honor 荣耀（MagicOS，YOYO / Magic大模型）

端侧模型：Magic大模型（自研路线），官方口径端侧多模态7B级 + 与字节豆包有合作（部分上层能力）

模型归属：主体自研Magic系端侧模型 ，荣耀走的路线是和高通联合深度调优------行业首批落地低bit量化方案，模型存储省30%、推理提速15%、功耗降20%
参数规模：端侧主力 7B级多模态，配合骁龙8至尊版/旗舰NPU的Hexagon张量加速器

用户实际用到的功能：

YOYO智能体：场景化主动服务（学你习惯→通勤时推日程+路况+导航；到公司楼下自动连WiFi开工作群等）
"任意门"意图拖拽理解：拖一段文字/图片→系统端侧理解→推荐操作
端侧多模态感知：文本+图像+本地向量化检索（毫秒级），检索性能提升显著
跨App智能调度：意图理解→拆解步骤→逐个调App执行

九、Motorola / 联想，以及通过 Google AICore 间接跑端侧模型的品牌

这类品牌自己不造大模型 ，端侧AI能力走的是谷歌的 Android AICore → Gemini Nano 通道：

Motorola（razr 60 Ultra等）：系统内置AICore，Gemini Nano端侧可用，功能对齐Pixel的Smart Reply/Recording摘要/Scam Detect等子集
小米部分国际版 、Honor部分机型：同样在符合条件的NPU硬件上可通过AICore调Gemini Nano做基础文本摘要/改写
硬件门槛：Android 9+、带NPU/TPU加速器、约12GB RAM是Gemini Nano完整版的实际及格线（8GB机型只能跑XXS裁剪版或干脆不可用）

十、PC 端：Windows Copilot+ PC（微软官方端侧SLM）

端侧模型：Phi Silica（微软自研SLM，Phi家族的NPU特化版）

模型归属：微软自研，不是OpenAI模型，不是Copilot Chat本身。Phi Silica是专门给Copilot+ PC的NPU跑的系统组件
参数级别：属于SLM（小语言模型） ，4-bit权重量化，context长度2K（4K在路上），短prompt首token约230ms ，吞吐约20 token/s ，NPU上下文处理单次仅耗4.8mWh------几乎不拖累CPU/GPU
硬件：Snapdragon X Elite/Plus（40+ TOPS NPU）为主；Intel Core Ultra Series 2和AMD Ryzen AI 300系也加入Copilot+阵营

用户实际触到的端侧功能：

Windows Studio Effects：背景虚化/自动取景/眼神接触校正 → 纯NPU常驻，不耗GPU，视频会议不掉帧
Live Captions + 实时翻译：系统级，任何播放/通话音频都可触发，端侧流水线
Paint Cocreator（生成填充/擦除）：端侧小扩散模型渲染
Recall（屏幕快照语义索引）：本地截图→本地embedding→本地向量数据库检索（可选功能，争议大但架构是端侧）
Photos Super Resolution：NPU加速本地AI超分
开发者可通过 Windows AI APIs（Windows App SDK） 把自己的量化模型也加载到NPU上跑

一张纯文字的"谁用谁的模型"速查

Apple → 全是自己的（AFM 3B / 20B MoE），跑在Neural Engine上
Google/Pixel → 全是自己的（Gemini Nano 1.8B/3.25B），跑在Tensor TPU或通用NPU via AICore
Samsung → 自研Gauss轻量 + 借谷歌的Gemini Nano（AICore系统服务），双轨
华为 → 全是自己的（盘古端侧轻量版），跑在麒麟NPU，鸿蒙底层预埋
小米 → 自己的（MiLM 3B/7B），跑在骁龙NPU
vivo → 自己的（BlueLM 1B/3B/7B），跑在骁龙/天玑 NPU
OPPO → 自己的（AndesGPT，7B INT4→3.9GB端侧），跑在骁龙/天玑 NPU
Honor → 主要自研（Magic 7B级），联合高通NPU调优，部分上层能力接豆包API
Motorola/部分国际版安卓 → 不自研底层，走谷歌AICore调Gemini Nano
Windows Copilot+ PC → 微软自己的Phi Silica（SLM），跑在Qualcomm/Intel/AMD的NPU上

如果你接下来想追某一个品牌往更底层挖------比如"OPPO那套INT4量化+SwappedAttention到底怎么解决KV Cache首字延迟的"、"Apple的2-bit QAT + 低秩adapter恢复精度"的具体论文/技术白皮书出处、或者"哪些功能其实只是营销包装的传统CV模型而非真正LLM"------你指定哪一家，我再定向深查。