智驾芯片算力比较 Horizon J6 VS Nvidia orin

Summary Table: Journey 6 (Flagship/P) vs. Orin-X

Feature Horizon Journey 6P (J6P) NVIDIA Orin-X
Release Year 2024 (Mass Prod. late 2025) 2022-2023 (Established)
AI TOPS ~560 TOPS (Sparse) ~254 TOPS (Dense)
CPU Performance >350K DMIPS High (ARM Cortex-A78AE)
Architecture Hybrid (NN + Rule) GPU (Ampere) + DLA
Primary Use Urban NOA, L3/L4 Urban NOA, L3/L4
Cost Lower High
OEM / Tier 1 参数规模 板端算力(量产顶配) 云端算力储备 Training Clips
Huawei 未公开 400 TOPS (MDC810) 7.5EFLOPS (ADS3.0) 3500万公里,模型每5天迭代一次
XP 未公开 2x Orin-X ~ 508 TOPS 2.51 EFLOPS, 08.2024 2000w, 07.2024
NIO 未公开 模型文件可能 > 0.5GB 4xOrin-X ~ 1016 TOPS 1.4EFLOPS, 09.2023 至少千万(oral)
理想 端到端大模型大约3亿 VLM大约20-30亿(估计) 2x Orin-X ~ 508 TOPS 4.5 EFLOPS, 08.2024 1000w, till 01.2025
TESLA Claim: 10B Upto 500TOPS (HW 4.0) 10EFLOPS, 08.2023 100EFLOPS, 10.2024 estimated 01.2023 > 1000w SOP cars
GEELY 未公开 - 810 PFLOPS

J6P算力如下:

  1. BPU 算力 :J6P 的 BPU 算力为 560T(int8),换算为 bf16 则为 186TOPS
  2. GPU 算力 :J6P 配备 1x 220 FP32 GFLOPS 的 GPU
  3. VIT 阶段算力需求 :VIT 阶段的算力需求为 3.471 TFLOPs
  4. Prefill 阶段算力需求 :Prefill 阶段的算力需求为 19.339 TFLOPs
  5. Decode 阶段读取量 :Decode(kv cache)阶段,bf16 的读取量为 110.6 M/token(5.53G for 50 tokens),int8 的读取量为 55.3 M/token(2.765G for 50 tokens

J6M 的算力如下:

  1. AI 算力 :128 TOPS
  2. GPU 算力 :100GFLOPS(FP32)
  3. CPU 算力 :6*ARM Cortex-A78AE cores,2GHz,137kDMIPS
  4. J6M 1xQ8 算力 :64+128FMAC GFLOPS
  5. 整体算力约束 :3sigma<=85ms,以此保障 BPU 算力正常运行
  6. 单 J6M 优化路线中的算力节约情况
    • BEV former 模型 sparse 化后可节约 10% - 15% 的算力
    • PnP 砍掉 encoder 直接接在感知 feature 上可节约 50% 的 PnP 算力
    • J6M 在 transformer 的常用算子上至少还有 10% 左右的优化空间
  7. 与 J5 算力对比 :同样的代码,如果不进行任何优化,在 J6M 单核上运行速度大约是 J5 的 4.2 倍左右,但 J6M 6 个核的实际算力可能只是 J5 8 个核的 3.3 倍左右,比标称的 137K DMIPS(J5 26K,5 倍于 J5)可能要低

J6E 的算力如下:

  1. AI 算力 :80 TOPS(在部分文档中提及,如);另有部分文档提到 108 TOPS,如,可能因不同版本或配置存在差异。

  2. CPU 算力(ASIL - B) :6xA78AE,102kDMIPS

  3. MCU 算力

    • R52 Core 配置与锁步方式

      • J6E 共 4 个 R52 core,其中有两个 R52 Core 必须锁步不能拆分。
      • 可部署方式:1 + 1(均两两锁步)或 1 + 2(保留一组不锁步)。
      • 算力情况:1 + 1 方式下算力为 6.5KDMIPS;1 + 2 方式下算力为 3.3 + 6.5 KDMIPS,地平线采用 1 + 2 的方式
    • 对比其他芯片

      • R52 单 Core 3.3 KDMIPS,Tc387 单 core 0.6KDMIPS,4 个 core 2.4KDMIPS;Tc4x 500Mhz,6 个锁步核共 8KDMIPS
  4. DSP 算力 :1xQ8 DSP,64 + 128FMAC

  5. Codec 能力 :H.264/H.265/JGPE 90FPS@4K。

  6. IPC 算力相关

    • IPC 用的共享内存是 DDR 而非 Sram,目的是省 Sram 空间,数据搬移采用 DMA 方式,与 S32G 不同。
    • IPC 通路带宽可达 200MB,实际应用场景受 CPU 调度、协议等因素影响,预估达到 100MB 左右,合理使用时 IPC 不会成为 J6 R 核和 A 核之间通信的瓶颈
  7. Dhrystone 测试算力对比

    • J6E 与 J6M 总算力对比:在不同测试中比值有所差异,如中为 79.1%(30883260/39016776),中为 73.88%(22168034/30003000),J6E 与 J6M 的 Frequency 比值为 0.75,基本吻合
相关推荐
缘友一世1 天前
精粤X99-TI D4 PLUS大板使用多显卡BIOS设置
bug·gpu·硬件·主板·x99
明洞日记3 天前
【CUDA手册002】CUDA 基础执行模型:写出第一个正确的 Kernel
c++·图像处理·算法·ai·图形渲染·gpu·cuda
明洞日记3 天前
【CUDA手册004】一个典型算子的 CUDA 化完整流程
c++·图像处理·算法·ai·图形渲染·gpu·cuda
抠头专注python环境配置4 天前
2026终极诊断指南:解决Windows PyTorch GPU安装失败,从迷茫到确定
人工智能·pytorch·windows·深度学习·gpu·环境配置·cuda
Hi202402175 天前
使用星图AI算力平台训练PETRV2-BEV模型
人工智能·自动驾驶·gpu·机器视觉·bev·算力平台
virtaitech6 天前
云平台一键部署【Step-1X-3D】3D生成界的Flux
人工智能·科技·ai·gpu·算力·云平台
KIDGINBROOK6 天前
Blackwell架构学习
gpu·cuda·blackwell
REDcker6 天前
Nvidia英伟达显卡型号发布史与架构演进详解
架构·gpu·显卡·nvidia·cuda·英伟达·演进
英雄各有见8 天前
Chapter 5.1.1: 编写你的第一个GPU kernel——Cuda Basics
c++·gpu·cuda·hpc