Summary Table: Journey 6 (Flagship/P) vs. Orin-X
| Feature | Horizon Journey 6P (J6P) | NVIDIA Orin-X |
|---|---|---|
| Release Year | 2024 (Mass Prod. late 2025) | 2022-2023 (Established) |
| AI TOPS | ~560 TOPS (Sparse) | ~254 TOPS (Dense) |
| CPU Performance | >350K DMIPS | High (ARM Cortex-A78AE) |
| Architecture | Hybrid (NN + Rule) | GPU (Ampere) + DLA |
| Primary Use | Urban NOA, L3/L4 | Urban NOA, L3/L4 |
| Cost | Lower | High |
| OEM / Tier 1 | 参数规模 | 板端算力(量产顶配) | 云端算力储备 | Training Clips |
|---|---|---|---|---|
| Huawei | 未公开 | 400 TOPS (MDC810) | 7.5EFLOPS (ADS3.0) | 3500万公里,模型每5天迭代一次 |
| XP | 未公开 | 2x Orin-X ~ 508 TOPS | 2.51 EFLOPS, 08.2024 | 2000w, 07.2024 |
| NIO | 未公开 模型文件可能 > 0.5GB | 4xOrin-X ~ 1016 TOPS | 1.4EFLOPS, 09.2023 | 至少千万(oral) |
| 理想 | 端到端大模型大约3亿 VLM大约20-30亿(估计) | 2x Orin-X ~ 508 TOPS | 4.5 EFLOPS, 08.2024 | 1000w, till 01.2025 |
| TESLA | Claim: 10B | Upto 500TOPS (HW 4.0) | 10EFLOPS, 08.2023 100EFLOPS, 10.2024 estimated | 01.2023 > 1000w SOP cars |
| GEELY | 未公开 | - | 810 PFLOPS |
J6P算力如下:
- BPU 算力 :J6P 的 BPU 算力为 560T(int8),换算为 bf16 则为 186TOPS
- GPU 算力 :J6P 配备 1x 220 FP32 GFLOPS 的 GPU
- VIT 阶段算力需求 :VIT 阶段的算力需求为 3.471 TFLOPs
- Prefill 阶段算力需求 :Prefill 阶段的算力需求为 19.339 TFLOPs
- Decode 阶段读取量 :Decode(kv cache)阶段,bf16 的读取量为 110.6 M/token(5.53G for 50 tokens),int8 的读取量为 55.3 M/token(2.765G for 50 tokens
J6M 的算力如下:
- AI 算力 :128 TOPS
- GPU 算力 :100GFLOPS(FP32)
- CPU 算力 :6*ARM Cortex-A78AE cores,2GHz,137kDMIPS
- J6M 1xQ8 算力 :64+128FMAC GFLOPS
- 整体算力约束 :3sigma<=85ms,以此保障 BPU 算力正常运行
- 单 J6M 优化路线中的算力节约情况 :
- BEV former 模型 sparse 化后可节约 10% - 15% 的算力
- PnP 砍掉 encoder 直接接在感知 feature 上可节约 50% 的 PnP 算力
- J6M 在 transformer 的常用算子上至少还有 10% 左右的优化空间
- 与 J5 算力对比 :同样的代码,如果不进行任何优化,在 J6M 单核上运行速度大约是 J5 的 4.2 倍左右,但 J6M 6 个核的实际算力可能只是 J5 8 个核的 3.3 倍左右,比标称的 137K DMIPS(J5 26K,5 倍于 J5)可能要低
J6E 的算力如下:
-
AI 算力 :80 TOPS(在部分文档中提及,如);另有部分文档提到 108 TOPS,如,可能因不同版本或配置存在差异。
-
CPU 算力(ASIL - B) :6xA78AE,102kDMIPS
-
MCU 算力 :
-
R52 Core 配置与锁步方式 :
- J6E 共 4 个 R52 core,其中有两个 R52 Core 必须锁步不能拆分。
- 可部署方式:1 + 1(均两两锁步)或 1 + 2(保留一组不锁步)。
- 算力情况:1 + 1 方式下算力为 6.5KDMIPS;1 + 2 方式下算力为 3.3 + 6.5 KDMIPS,地平线采用 1 + 2 的方式
-
对比其他芯片 :
- R52 单 Core 3.3 KDMIPS,Tc387 单 core 0.6KDMIPS,4 个 core 2.4KDMIPS;Tc4x 500Mhz,6 个锁步核共 8KDMIPS
-
-
DSP 算力 :1xQ8 DSP,64 + 128FMAC
-
Codec 能力 :H.264/H.265/JGPE 90FPS@4K。
-
IPC 算力相关 :
- IPC 用的共享内存是 DDR 而非 Sram,目的是省 Sram 空间,数据搬移采用 DMA 方式,与 S32G 不同。
- IPC 通路带宽可达 200MB,实际应用场景受 CPU 调度、协议等因素影响,预估达到 100MB 左右,合理使用时 IPC 不会成为 J6 R 核和 A 核之间通信的瓶颈
-
Dhrystone 测试算力对比 :
- J6E 与 J6M 总算力对比:在不同测试中比值有所差异,如中为 79.1%(30883260/39016776),中为 73.88%(22168034/30003000),J6E 与 J6M 的 Frequency 比值为 0.75,基本吻合