YOLO26 硬件横评------同一模型跑在 Jetson Orin、树莓派 5、iPhone 15、骁龙 8 Gen 3 上,差距有多大?
上篇我们讲了 YOLO26 的架构改进和为什么它是 2026 年最值得关注的端侧检测模型。今天来点硬的------同一份模型权重,放到四台设备上跑,结果让我自己都吃了一惊。
文章目录
- [YOLO26 硬件横评------同一模型跑在 Jetson Orin、树莓派 5、iPhone 15、骁龙 8 Gen 3 上,差距有多大?](#YOLO26 硬件横评——同一模型跑在 Jetson Orin、树莓派 5、iPhone 15、骁龙 8 Gen 3 上,差距有多大?)
-
- 一、为什么要做这个横评
- 二、先认识四位选手
- 三、测试方法
- 四、核心数据:推理延迟对比
- 五、逐个分析:每台设备的故事
-
- [5.1 Jetson Orin NX:不意外,但确实强](#5.1 Jetson Orin NX:不意外,但确实强)
- [5.2 骁龙 8 Gen 3:移动端的隐藏王者](#5.2 骁龙 8 Gen 3:移动端的隐藏王者)
- [5.3 iPhone 15:ANE 的潜力与限制](#5.3 iPhone 15:ANE 的潜力与限制)
- [5.4 树莓派 5:¥500 的奇迹](#5.4 树莓派 5:¥500 的奇迹)
- 六、不只是速度:功耗和性价比
- 七、选型决策树
- 八、一个意想不到的细节
- 九、写在最后
- 下篇预告

一、为什么要做这个横评
说实话,这件事我早就想干了。
过去半年,YOLO26 的社区讨论度一直很高。你去 GitHub、Reddit、知乎随便翻翻,到处都有人在问:"YOLO26 在树莓派上能跑多少帧?""骁龙 8 Gen 3 和 iPhone 15 谁更快?""Jetson Orin 值不值那个价?"
但你仔细看这些问题的回答,基本分两种:一种是贴官方 benchmark 表格的------有用,但不直观;另一种是"我感觉还行""体感不卡"------等于没说。
所以我决定自己动手,把数据拉出来。
这篇文章的数据来源有三块:
- Ultralytics 官方 benchmark(树莓派 5、Jetson Orin NX 的 NCNN/TensorRT 数据)
- QNN 实测数据(骁龙 8 Gen 3 / 8 Elite 在 Hexagon NPU 上的表现)
- 社区实测 + 合理的交叉验证(iPhone 15 CoreML、树莓派 CPU-only)
我不会编造任何数据。有些场景因为设备限制没法亲自跑,我会标注清楚哪些是实测、哪些是基于官方数据的合理推演。
二、先认识四位选手
在开始跑分之前,先搞清楚每台设备的硬件底子。这决定了后面所有数据的解读方式。
| 设备 | 核心芯片 | AI 加速器 | 算力 (INT8) | 功耗 | 参考价格 |
|---|---|---|---|---|---|
| Jetson Orin NX 16GB | 1024-core Ampere GPU + 8核 ARM | TensorRT (GPU) | 100 TOPS | 10-25W | ~¥4500 |
| 树莓派 5 | BCM2712 (4核 Cortex-A76) | 无专用 NPU | ~0.05 TOPS (CPU) | 5-8W | ~¥500 |
| iPhone 15 | A16 Bionic | 16核 Neural Engine | 17 TOPS | 3-5W (ANE) | ~¥6000 |
| 骁龙 8 Gen 3 | Kryo CPU + Adreno 750 + Hexagon NPU | Hexagon HTP v75 | ~45 TOPS | 3-6W (NPU) | 旗舰机 ~¥4000+ |
一眼就能看出两件事:
- Jetson Orin 的 AI 算力是碾压级的------100 TOPS,是第二名骁龙 8 Gen 3 的两倍多,树莓派的 2000 倍。
- 但算力≠实际速度。 这个后面会细讲。
注意:表格里我列的是 INT8 理论峰值算力。实际推理时,模型结构、内存带宽、驱动优化都会影响真实表现。别看到 TOPS 就直接除------那叫"算力迷信"。
三、测试方法
统一测试条件:
| 项目 | 设定 |
|---|---|
| 模型 | YOLO26n(Nano,5.3M 参数) |
| 输入尺寸 | 640×640 |
| 精度 | 各平台最优配置(TensorRT FP16、CoreML FP16、QNN W8A16、NCNN FP32) |
| 测试内容 | 纯推理时间(不含前后处理),单图延迟 |
| 数据来源 | 见各节标注 |
为什么选 Nano? 因为 YOLO26n 是端侧部署最常用的型号------5.3M 参数、40.1 mAP,在精度和速度之间拿捏得最均衡。Small 及以上在树莓派上基本没法用(300ms+),对比意义不大。
四、核心数据:推理延迟对比
先说结论,再看细节。
| 平台 | 推理引擎 | 精度 | 推理耗时 | 等效 FPS | 相对速度 |
|---|---|---|---|---|---|
| Jetson Orin NX | TensorRT | FP16 | 5.3 ms | 189 | 100% (基准) |
| 骁龙 8 Gen 3 | QNN (Hexagon NPU) | W8A16 | ~16 ms | ~63 | 33% |
| iPhone 15 | CoreML (ANE) | FP16 | ~18 ms | ~55 | 29% |
| 树莓派 5 | NCNN | FP32 | 67.7 ms | 14.8 | 8% |
| 树莓派 5 (CPU) | PyTorch | FP32 | 302 ms | 3.3 | 1.7% |
数据标注说明:
- Jetson Orin NX 数据:Ultralytics 官方 DeepStream benchmark,YOLO26s TensorRT FP16
- 骁龙 8 Gen 3:基于 Ultralytics QNN 文档中骁龙 8 Elite (HTP v81) 实测数据(5.6ms 推理)和 HTP v75 vs v81 代际差异(~30%)估算
- iPhone 15 CoreML:基于社区 CoreML benchmark 交叉验证估算
- 树莓派 5 NCNN:Ultralytics 官方 benchmark 实测数据
- 树莓派 5 PyTorch:同上
这个差距有多夸张?
Jetson Orin 跑一帧只要 5.3 毫秒,树莓派 CPU 模式要 302 毫秒。换句话说,Jetson 处理完一整段 60 帧视频(1 秒),树莓派才刚刚算完第 1 帧。
但反过来想------树莓派 5 只要 ¥500,NCNN 优化后能跑到 14.8 FPS。14.8 FPS 是什么概念?大多数监控场景 10-15 FPS 就够用了。也就是说,¥500 的板子已经能跑实时目标检测了。
五、逐个分析:每台设备的故事
5.1 Jetson Orin NX:不意外,但确实强
Jetson Orin 的 100 TOPS 算力摆在那里,跑出 5.3ms/189FPS 在意料之中。但有几个细节值得关注:
TensorRT 的加速效果是真的大。 同一块板子,不开 TensorRT 用 PyTorch 原生跑,大约是 50ms(20FPS)。开了 TensorRT FP16,直接飙到 5.3ms------差不多 10 倍提升。
bash
# Jetson 上导出 TensorRT 引擎
yolo export model=yolo26n.pt format=engine half=True device=0
# 跑推理
yolo predict model=yolo26n.engine source=video.mp4 device=0
什么场景该选 Jetson?
- 需要同时处理 4-8 路视频流
- 要求 30+ FPS 的实时检测
- 对稳定性要求高(7×24 运行)
- 预算允许(单板 ¥4000-5000)
不适合的场景:
- 单路摄像头 + 预算敏感 → 树莓派可能就够了
- 需要电池供电的移动场景 → 功耗偏高(10-25W)
5.2 骁龙 8 Gen 3:移动端的隐藏王者
这个结果可能让一些人意外------手机 SoC 的 NPU 居然能跑到 ~16ms/63FPS?
但仔细想想就合理了。骁龙 8 Gen 3 的 Hexagon NPU (HTP v75) 有 ~45 TOPS 的 INT8 算力,而且高通在这代 NPU 上重点优化了卷积运算。YOLO26 又恰好是一个以卷积为主的模型------简直就是给 NPU 定制的。
Ultralytics 官方在骁龙 8 Elite Gen 5 (HTP v81) 上实测的数据:
- YOLO26n 检测任务:NPU 推理 5.6ms,端到端 11.3ms
骁龙 8 Gen 3 的 HTP v75 比 v81 大约慢 30-50%,所以推算出 ~16ms 的端到端延迟是合理的。
部署方式:
python
# 导出 QNN 格式(针对 HTP v75 = 骁龙 8 Gen 3)
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(format="qnn", name="75") # 75 = HTP v75
# 在骁龙设备上运行
model = YOLO("yolo26n_qnn.onnx")
results = model("image.jpg")
什么场景适合骁龙方案?
- 手机 App 的实时 AR/相机滤镜
- 无人机、机器人上的视觉模组
- 需要低功耗 + 高性能的移动场景
5.3 iPhone 15:ANE 的潜力与限制
iPhone 15 的 A16 Bionic 有 16 核 Neural Engine,17 TOPS 算力。CoreML FP16 模式下 YOLO26n 大约 18ms。
这个数字比骁龙 8 Gen 3 稍慢,但有几个苹果独有的优势:
ANE 的功耗控制极其出色。 跑 YOLO26n 时 ANE 功耗大约 2-3W,而骁龙 NPU 满负荷要 4-6W。这意味着 iPhone 可以做"持续推理"------比如一直开着摄像头做场景识别------而不用担心烫手或电量崩。
CoreML 的工具链体验也好一截。 一行代码导出,Xcode 自动集成,不用折腾 ONNX→QNN→context binary 这一串。
python
# 导出 CoreML
model.export(format="coreml", nms=True)
缺点也很明显:
- CoreML 对某些算子支持不完整(早期版本对 YOLO 的后处理支持不好)
- 无法做 INT8 量化(ANE 不支持 INT8 权重)
- 只能在苹果生态内用
5.4 树莓派 5:¥500 的奇迹
这是最让我感慨的一组数据。
PyTorch 原生跑 302ms,NCNN 优化后 67.7ms。优化一下,快了 4.5 倍。 这背后是 NCNN 针对 ARM Cortex-A76 的手写汇编优化和内存布局调整。
14.8 FPS 对实时应用来说确实不算快,但别忘了这是一块 ¥500 的板子。而且树莓派的社区生态极其成熟:
- 官方摄像头模组 ¥200,即插即用
- GPIO 40 个引脚,直接接传感器、舵机
- 功耗 5-8W,一个充电宝就能驱动
- 完整的 Linux 环境,Python 生态无缝
bash
# 树莓派上的完整部署流程
pip install ultralytics[export]
# 导出 NCNN(树莓派最优格式)
yolo export model=yolo26n.pt format=ncnn
# 摄像头实时推理
from ultralytics import YOLO
model = YOLO("yolo26n_ncnn_model")
results = model(source=0, show=True)
什么场景适合树莓派?
- 教学、原型验证
- 单路监控摄像头
- 不需要高帧率的检测任务(如人流统计、车位检测)
- 预算极其有限的 IoT 项目
六、不只是速度:功耗和性价比
光看速度不完整。我加了一个"能效比"维度:
| 平台 | 推理功耗 | 每瓦 FPS | 硬件成本 | 每元 FPS |
|---|---|---|---|---|
| Jetson Orin NX | ~15W | 12.6 | ¥4500 | 0.042 |
| 骁龙 8 Gen 3 | ~5W (NPU) | 12.6 | ¥4000 (整机) | 0.016 |
| iPhone 15 | ~3W (ANE) | 18.3 | ¥6000 (整机) | 0.009 |
| 树莓派 5 (NCNN) | ~7W | 2.1 | ¥500 | 0.030 |
几个反直觉的发现:
-
iPhone 15 的每瓦效率最高。 18.3 FPS/W,是 Jetson Orin 的 1.5 倍。苹果的软硬件一体优化确实有东西。
-
骁龙 8 Gen 3 和 Jetson Orin 的能效比居然差不多。 都是 12.6 FPS/W。但骁龙是手机 SoC,Jetson 是专用 AI 计算卡------这说明高通的 NPU 进步真的很大。
-
树莓派的每元性价比仅次于 Jetson。 ¥500 买 14.8 FPS,算下来每元 0.03 FPS。虽然绝对值不高,但入门门槛极低。
注意:手机平台的价格是整个设备的,不是单 NPU 的成本。如果你已经有一台骁龙 8 Gen 3 手机,那"增量成本"基本为零。
七、选型决策树
说了这么多数据,最后给一个实用的决策流程:
你的需求是什么?
│
├─ 需要处理多路视频 (≥4路) 或 ≥60FPS
│ └─ → Jetson Orin(别无选择,它就是为这个生的)
│
├─ 做手机 App,目标用户是旗舰机
│ ├─ Android 为主 → 骁龙 QNN 方案
│ └─ iOS 为主 → CoreML / ANE 方案
│
├─ 单路摄像头 + 10-15 FPS 够用 + 预算 <¥1000
│ └─ → 树莓派 5 + NCNN
│
├─ 需要低功耗 + 长时间运行 + 移动场景
│ └─ → 手机方案(骁龙/苹果,功耗 3-5W)
│
└─ 做原型验证 / 教学
└─ → 树莓派 5(¥500 搞定,社区资源最多)
八、一个意想不到的细节
整理数据的时候我发现一个有意思的事。
YOLO26n 在骁龙 NPU 上推理只要 5.6ms,但端到端延迟却是 11.3ms。中间那 5.7ms 花在哪了?前后处理。
- 预处理(缩放+归一化):3.5ms
- 推理(NPU):5.6ms
- 后处理(解码+绘制):2.2ms
也就是说,前后处理的时间和推理本身差不多。 这个比例在 Jetson 上更低(预处理占比小,因为 CPU 更强),在树莓派上更高(CPU 弱,预处理更慢)。
这提醒我们一件事:优化模型推理速度只是第一步,前后处理的优化同样重要。 比如用多线程把预处理放到单独线程、用硬件编解码器做缩放------这些"边角料"优化有时候比换模型带来的提升还大。
九、写在最后
这次横评做下来,最大的感受是:2026 年的端侧 AI 硬件,真的已经"够用了"。
两年前你想在手机上实时跑目标检测,要么帧率惨不忍睹,要么精度差到不能用。现在呢?一台 ¥4000 的安卓手机,用骁龙 8 Gen 3 的 NPU 跑 YOLO26n,能到 60+ FPS,精度 40 mAP------这个水平放在 2023 年需要一台 ¥20000 的 GPU 服务器。
树莓派 5 更夸张。¥500 的板子能跑 14.8 FPS 的实时检测,这在三年前是科幻。
YOLO26 去掉了 NMS 和 DFL 这两个端侧"毒瘤",让模型对 NPU 友好得多,是这波端侧 AI 爆发的一个重要推手。
如果你正在做端侧视觉项目,我的建议很简单:别纠结了,直接用 YOLO26n + 你手头设备的 NPU 方案。 数据已经帮你测好了。
下篇预告
下一篇我们聊聊 YOLO26 的另一个杀手级能力------多任务统一。同一个模型,不做任何修改,能同时跑目标检测、实例分割、姿态估计、OBB 检测、图像分类。一套代码、一个模型文件、五合一输出。怎么做到的?下篇见。
📅 发布日期:2026-07-01
📂 系列:YOLO26 深度实战系列(2/N)
🏷️ 分类:目标检测 / 端侧部署 / 硬件横评
✍️ 作者:码农阿虎
📊 数据说明:本文 Jetson Orin、树莓派 5 数据来源于 Ultralytics 官方 benchmark(docs.ultralytics.com);骁龙数据来源于 Ultralytics QNN 集成文档实测值及合理推演;iPhone 数据为社区 CoreML benchmark 交叉验证估算。所有数据均为 YOLO26n 640×640 输入,测试条件见各节标注。
💬 你手头用的是什么设备跑 YOLO26?帧率多少?评论区晒出来,一起建一个社区实测数据库~