智驾芯片算力比较 Horizon J6 VS Nvidia orin

Summary Table: Journey 6 (Flagship/P) vs. Orin-X

Feature Horizon Journey 6P (J6P) NVIDIA Orin-X
Release Year 2024 (Mass Prod. late 2025) 2022-2023 (Established)
AI TOPS ~560 TOPS (Sparse) ~254 TOPS (Dense)
CPU Performance >350K DMIPS High (ARM Cortex-A78AE)
Architecture Hybrid (NN + Rule) GPU (Ampere) + DLA
Primary Use Urban NOA, L3/L4 Urban NOA, L3/L4
Cost Lower High
OEM / Tier 1 参数规模 板端算力(量产顶配) 云端算力储备 Training Clips
Huawei 未公开 400 TOPS (MDC810) 7.5EFLOPS (ADS3.0) 3500万公里,模型每5天迭代一次
XP 未公开 2x Orin-X ~ 508 TOPS 2.51 EFLOPS, 08.2024 2000w, 07.2024
NIO 未公开 模型文件可能 > 0.5GB 4xOrin-X ~ 1016 TOPS 1.4EFLOPS, 09.2023 至少千万(oral)
理想 端到端大模型大约3亿 VLM大约20-30亿(估计) 2x Orin-X ~ 508 TOPS 4.5 EFLOPS, 08.2024 1000w, till 01.2025
TESLA Claim: 10B Upto 500TOPS (HW 4.0) 10EFLOPS, 08.2023 100EFLOPS, 10.2024 estimated 01.2023 > 1000w SOP cars
GEELY 未公开 - 810 PFLOPS

J6P算力如下:

  1. BPU 算力 :J6P 的 BPU 算力为 560T(int8),换算为 bf16 则为 186TOPS
  2. GPU 算力 :J6P 配备 1x 220 FP32 GFLOPS 的 GPU
  3. VIT 阶段算力需求 :VIT 阶段的算力需求为 3.471 TFLOPs
  4. Prefill 阶段算力需求 :Prefill 阶段的算力需求为 19.339 TFLOPs
  5. Decode 阶段读取量 :Decode(kv cache)阶段,bf16 的读取量为 110.6 M/token(5.53G for 50 tokens),int8 的读取量为 55.3 M/token(2.765G for 50 tokens

J6M 的算力如下:

  1. AI 算力 :128 TOPS
  2. GPU 算力 :100GFLOPS(FP32)
  3. CPU 算力 :6*ARM Cortex-A78AE cores,2GHz,137kDMIPS
  4. J6M 1xQ8 算力 :64+128FMAC GFLOPS
  5. 整体算力约束 :3sigma<=85ms,以此保障 BPU 算力正常运行
  6. 单 J6M 优化路线中的算力节约情况
    • BEV former 模型 sparse 化后可节约 10% - 15% 的算力
    • PnP 砍掉 encoder 直接接在感知 feature 上可节约 50% 的 PnP 算力
    • J6M 在 transformer 的常用算子上至少还有 10% 左右的优化空间
  7. 与 J5 算力对比 :同样的代码,如果不进行任何优化,在 J6M 单核上运行速度大约是 J5 的 4.2 倍左右,但 J6M 6 个核的实际算力可能只是 J5 8 个核的 3.3 倍左右,比标称的 137K DMIPS(J5 26K,5 倍于 J5)可能要低

J6E 的算力如下:

  1. AI 算力 :80 TOPS(在部分文档中提及,如);另有部分文档提到 108 TOPS,如,可能因不同版本或配置存在差异。

  2. CPU 算力(ASIL - B) :6xA78AE,102kDMIPS

  3. MCU 算力

    • R52 Core 配置与锁步方式

      • J6E 共 4 个 R52 core,其中有两个 R52 Core 必须锁步不能拆分。
      • 可部署方式:1 + 1(均两两锁步)或 1 + 2(保留一组不锁步)。
      • 算力情况:1 + 1 方式下算力为 6.5KDMIPS;1 + 2 方式下算力为 3.3 + 6.5 KDMIPS,地平线采用 1 + 2 的方式
    • 对比其他芯片

      • R52 单 Core 3.3 KDMIPS,Tc387 单 core 0.6KDMIPS,4 个 core 2.4KDMIPS;Tc4x 500Mhz,6 个锁步核共 8KDMIPS
  4. DSP 算力 :1xQ8 DSP,64 + 128FMAC

  5. Codec 能力 :H.264/H.265/JGPE 90FPS@4K。

  6. IPC 算力相关

    • IPC 用的共享内存是 DDR 而非 Sram,目的是省 Sram 空间,数据搬移采用 DMA 方式,与 S32G 不同。
    • IPC 通路带宽可达 200MB,实际应用场景受 CPU 调度、协议等因素影响,预估达到 100MB 左右,合理使用时 IPC 不会成为 J6 R 核和 A 核之间通信的瓶颈
  7. Dhrystone 测试算力对比

    • J6E 与 J6M 总算力对比:在不同测试中比值有所差异,如中为 79.1%(30883260/39016776),中为 73.88%(22168034/30003000),J6E 与 J6M 的 Frequency 比值为 0.75,基本吻合
相关推荐
劈星斩月2 天前
从“画图”到“算数”:GPU如何站上AI时代的C位
人工智能·gpu
逻极2 天前
Windows 平台 Ollama AMD GPU 一键编译指南:基于 ROCm 7.1 的自动化实战
人工智能·windows·stm32·自动化·gpu·amd·ollama
Luchang-Li4 天前
GPU传输带宽等信息监控nvidia-smi
人工智能·gpu·监控·性能·带宽
插件开发5 天前
CUDA11-VS2015安装-工具链测试-Helloworld程序
c++·gpu·cuda
DigitalOcean6 天前
微调后的 LLM 如何部署到生产环境?从GPU 推理端点的搭建、测试与上线全流程
llm·gpu
ALINX技术博客8 天前
【黑金云课堂】FPGA技术教程Linux开发:摄像头GPU渲染显示/Qt OpenGLES使用
linux·qt·fpga开发·gpu
模型时代10 天前
GPU之外,立讯精密想吃下AI数据中心的“连接生意“
gpu·数据中心·立讯精密
IC修真院11 天前
高赞问题:NPU可不可以代替GPU?
gpu·ic设计·芯片·微电子·数字ic·npu
黑暗森林观察者12 天前
AMD 送了块顶级 GPU 给黑客,他能打穿英伟达 20 年的软件帝国吗?
gpu
派勤电子14 天前
2026 支持 FPGA 工控机 AI 加速应用场景详解
gpu·fpga·npu·工控机·ai工控机·fpga工控机·工业级工控机