2025年Arm最新处理器架构介绍——全新C1系列

2025年9月,Arm发布了其最新的处理器架构。今年,Arm抛弃了原有的X系列和A系列命名规则,采用了新的的命名规则,叫C1系列,包括了C1-Ultra、C1-Premium、C1-Pro、C1-Nano等产品。名称上感觉更像手机的命名系列,并且微架构新全新升级到了Armv9.3-A。此外,今年的GPU的新架构叫做GPU Mali G1。

除了微架构的名称变化,Arm还为每个目标市场都创建了完整的品牌名称:

  • Neoverse 用于服务器
  • Zena 用于汽车
  • Lumex 用于移动设备
  • Niva 用于个人电脑
  • Orbis 用于物联网

值得一提是有一个新的PC品牌Niva,推测对Windows有更好的支持。除了Qualcomm's Snapdragon X 系列处理器,我们有望看到更多的Arm处理器运行Windows系统。

今年用于手机处理器的C1系列和G1系列则属于Lumex套件,全称叫做Arm Lumex CSS Platform。那么Lumex里面都包含什么?根据Arm的资料,Lunux包含CPU、GPU、System等IP设计,还包含了3nm等工艺节点的物理实现,以及一些生态的支持,例如Pre-silicon的平台指导、安卓16支持、SME2的应用等等,可以帮助芯片厂商更快的完成芯片设计。

Arm期望通过CSS套件将这些IP以套装打包起来售卖以提升产品竞争力,提升整体性价比,提升对客户的吸引力,从而提升Arm的销售额。打个比方,这就类似麦当劳更喜欢卖套餐,而不是单卖汉堡。

我们用一个表格,直观的展示这5年来Arm微架构演进迭代的情况

|----------------|---------------|-----------------|-----------------|-----------------|-------------|
| 平台 | Lumex CSS 平台 | 客户 CSS | TCS23 | TCS22 | TCS21 |
| 发布年份 | 2025 | 2024 | 2023 | 2022 | 2021 |
| CPU指令集 | Armv9.3-A | Armv9.2-A | Armv9.2-A | Armv9-A | Armv9-A |
| 扩展指令(SVE/SVE2) | ○ | ○ | ○ | ○ | ○ |
| 扩展指令(SME2) | ○ | - | - | - | - |
| CPU Prime 核心 | C1-Ultra | Cortex-X925 | Cortex-X4 | Cortex-X3 | Cortex-X2 |
| CPU次级核心 | C1-Premium | - | - | - | - |
| CPU高性能核心 | C1-Pro | Cortex-A725 | Cortex-A720 | Cortex-A715 | Cortex-A710 |
| CPU高效核心 | C1-Nano | Cortex-A520 | Cortex-A520 | Cortex-A510 | Cortex-A510 |
| DSU | C1-DSU | DSU-120 | DSU-120 | DSU-110 | DSU-110 |
| GPU (最高配置) | Mali G1-Ultra | Immortalis-G925 | Immortalis-G720 | Immortalis-G715 | Mali-G10 |
| 工艺 | 3纳米 | 3纳米 | 4纳米 | 4纳米 | 5纳米 |

上面这张图包含了今年新C1架构的核心参数指标参数的变化,后面我们会看具体的变化。

首先看一下C-Ultra相比上一代X925的性能提升。C1-Ultra的IPC性能,从Arm给出的数据看,比上一代的X925要提升12%左右,前期有预测过C1-Ultra可能会采用12路decoder设计,现在看来应该没有用12路这么激进,不然性能应该能有20%以上的提升。图中下面2024年的安卓旗舰竞品,应该是指用了X4核心的处理器8Gen3处理器。

在前端设计上,C1-Ultra和上一代X925的核心参数decoder宽度,ALU数量,FPU数量等基本相同。C1-Ultra主要优化是提升分支预测性能,增加记录预测历史的空间,从而提升分支预测的准确性,对性能和功耗都有帮助。此外,一个明显的变化是,L1指令缓存的带宽提升了33%,以实现更快的指令获取速度。

在后端设计上,C1-Ultra的L1数据缓存容量从64KB提升到128KB,这个大小要超出高通Oryon的96KB,可惜L1指令缓存还是大小还是64KB,不如Oryon的192KB。这也是多年来Arm第一次在旗舰核心上增加L1缓存的容量。

性能和功耗指标上,C1-Ultra比X925,峰值性能提升了25%,同性能下功耗则降低了28%,在工艺没有变化,都是3nm的情况下,性能的提升主要通过优化微架构和提升频率。至于功耗,需要注意C1-Ultra的极限功耗是增加的,但是得益于微架构的优化和缓存的提升,原来X925极限性能的高能效区间在这一代同性能频率可以跑的更低。在C1-Ultra的使用上,建议多使用这段高能效的区间,以达到最经济的能效使用。

下面用一个表格总结了Arm旗舰核心在过去六年里的发展变化:

|-----------------|-----------|-------------|---------------|-----------|-----------|-----------|
| Prime 核心 | C1-Ultra | Cortex-X925 | Cortex-X4 | Cortex-X3 | Cortex-X2 | Cortex-X1 |
| 年份 | 2025 | 2024 | 2023 | 2022 | 2021 | 2020 |
| 指令集 | Armv9.3-A | Armv9.2-A | Armv9.2-A | Armv9-A | Armv9-A | Armv8.3-A |
| 扩展指令(SVE/SVE2) | ○ | ○ | ○ | ○ | ○ | - |
| 扩展指令(SME2) | ○ | - | - | - | - | - |
| 目标频率 | 4.1GHz或更高 | 3.6GHz或更高 | 3.3GHz | 3.2GHz | 3GHz | 3GHz |
| decode宽度 | 10 | 10 | 10 | 6 | 5 | 5 |
| Dispatch/ Cycle | 10 | 10 | 10 | 8 | 8 | 8 |
| ALU | 8 | 8 | 8 | 6 | 4 | 4 |
| FP/SIMD | 6 | 6 | 4 | 4 | 4 | 4 |
| L1数据 | 128KB | 64KB | 64KB | 64KB | 64KB | 64KB |
| L1命令 | 64KB | 64KB | 64KB | 64KB | 64KB | 64KB |
| L2 | 2MB/3MB | 2MB/3MB | 512KB/1MB/2MB | 512KB/1MB | 512KB/1MB | 512KB/1MB |
| L3 | 0~32MB | 0~32MB | 0~32MB | 0~16MB | 0~16MB | 0~16MB |

在这几年中,变化最大的演进是2023年的Cortex-X4,其decoder宽度从6路提升到10路,ALU也从6个增加到8个,性能提升明显,典型处理器代表是MTK的天玑9300和高通的骁龙8Gen3处理器。

再来看一下C1-Premium,面积比C1-Ultra减少35%,主要是减少了矢量单元和L2缓存,并优化了物理实现。如果说是减少了FPU,推测其性能和X4的差不多。今年的天玑9500信息提到了一颗Travis和三颗Alto,应该是一颗超大C1-Ultra加三颗C-Premium来实现。

C1-Pro是高性能大核心,相比上一代游戏性能提升了16%,正统A725的继承者。A725的能效相当不错,也期待C1-Pro在今年处理器的表现,天玑9500剩余的4颗Gales,应该是C1-Pro。

C1-Nano是功耗核心,A520的下一代,功耗降低26%,性能稍弱,应该还是三路decoder的非乱序执行,在高端处理器中已经见不到身影,主要用于中低端处理器,可以做小芯片面积。

C1-Pro在前端设计上重点优化了分支预测的吞吐率和准确性,L1指令的TLB容量提升了50%,并且降低了分支预期的功耗。

C1-Pro在后端上提升了数据L1缓存的带宽,优化L2的TLB延迟,新增了间接预期器,提升预取的性能和减少L3到SLC和内存的数据拥塞。

性能功耗上,C1-Pro相比A725,峰值功耗差异不大的情况下,性能提升了11%,相同性能下功耗则降低了26%。A725已经是一颗能效优秀的大核心处理器,从这个数据看非常期待C1-Pro的市场表现。

下面我们来看一下C1-Nano核心,这也是一颗Armv9.3-A架构的处理器。Arm宣称C1-Nano相比A520提升了26%的效能,并有效减少L3到内存的拥塞。性能上,在不到2%的核心面积增加下(小核心很在意核心面积),性能可以提升5.5%。还通过解耦预测和取指流水线,提升了指令预取的性能。

DSU是连接多个处理器核心的关键模块,这一代的新DSU命名为C1-DSU。这一代的C1-DSU,Arm宣称功耗可以节省11%,Quick Nap内存(L3支持的功能)功耗可以降低7%。

新一代的C1-DSU相比DS120,调整了CPU连接的拓扑结构,提供优秀的AI能力支持,支持新的SME2扩展指令集,并且在不影响性能的情况下降低了功耗和面积。

C1-DSU还更新了L3的Quick Nap支持。Quick Nap是系统在进入低功耗状态前,L3缓存会标记高频率访问的数据(如进程上下文),在唤醒时通过硬件级数据预取功能(如SME2),直接从L3恢复关键数据,降低系统延迟。C1-DSU通过把L3缓存进行切片,只需唤醒需要数据所在的区片,进一步降低了系统延迟和功耗。

下面是一个L3 Quick Nap和传统深度休眠的数据对比:

|--------|--------------|----------|
| 特性 | L3 Quick Nap | 传统深度休眠 |
| ‌唤醒延迟‌ | <10μs | 50-100μs |
| ‌功耗‌ | 中等(依赖负载) | 极低 |
| ‌适用场景‌ | 高频间歇任务 | 长期待机 |

和上一代一样,C1-DSU最多可以支持14个处理器核心的组合,并且可以实现不同C1处理器的组合,除了最初级的2核心配置,其余都可以支持SME2。

2025年新Arm架构的一个特征就是采用了新的Armv9.3-A指令集,并且支持SME2扩展指令集,我们来看一下SME2的特点。

SME(Scalable Matrix Extension,可扩展矩阵扩展)是Armv9架构引入的指令集,虽然SME指令集在2021年就提出了,但是Arm的Cortex-X系列处理器从X925才开始支持第一代的SME指令集,苹果公司的M4处理器和今年的A19处理器也支持第一代的SME指令集,最新的高通的8 Elite 2处理器也可以支持SME指令集。今年的Arm C1系列则全面升级到了SME2指令集。

|-------------|------|--------------|
| 芯片 | 支持版本 | 关键特性 |
| Cortex-X925 | SME | 3nm |
| C1-Ultra | SME2 | 3nm |
| 骁龙8 Elite 2 | SME | 3nm,5GHz主频 |
| 苹果M4 | SME | 3nm,48%单核提升 |
| 苹果A19 | SME | 3nm,第三代N3P工艺 |

SME2是第二代SME指令集,Arm宣称其专为加速AI/ML工作负载设计,通过矩阵运算优化提升能效比。相比SME,SME2引入了多矢量指令和动态去量化等技术,可以显著提升矩阵运算效率。SME2采用可变长度寄存器架构(128-2048位),支持流式SVE模式和高吞吐量矩阵数据处理。

在性能表现上,Arm宣称SME2对性能上有显著帮助,例如在AI任务中,SME2可使CPU集群的AI性能提升5倍,同时实现了3倍的能效提升。由于AI类计算需要调用非常多的矩阵计算,因此SME2在AI类应用中尤为有效。

在开发上,SME2对开发者也会非常友好,Arm宣称,很多应用程序开发都集成了Arm的开发套件KleidAI来辅助执行AI处理,在这种情况下,用户只要讲KleidiAI更新到支持SME2的版本即可。另外。多数情况,用户只需要修改少量代码,即可实现兼容,同时也支持C语言用内联函数intrinsics预言开发。

在应用场景上,SME2可以广泛应用在端侧AI,大模型推理,智能助手,计算机视觉等场景。

总结

如果不想看前面的文章,可以快速跳转到这一部分。这次的总结部分用简洁整理,让大家可以快速了解今年Arm的处理器升级点。

  • 2025年Arm处理器采用新的架构命名体系,CPU新架构叫做C1系列,GPU新架构叫做G1,手机处理器平台套件叫做Lumex。
  • CPU家族包含C1-Ultra、C1-Premium、C1-Pro、C1-Nano四款产品。
  • C1-Ultra对标原来的Cortex-X系列,峰值性能提升25%,IPC性能提升12%,同性能下功耗降低28%。
  • C1-Premium是新出的次旗舰核心,面积比C1-Ultra小35%,性能参考Cortex-X4。
  • C1-Pro是A725的升级,峰值功耗差异不大的情况下,性能提升了11%,相同性能下功耗则降低了26%。
  • C1-Nano是A520的升级,相比A520提升了26%的效能。
  • C1-DSU是DSU120的升级,功耗可以节省11%,提供优秀的AI能力支持,支持新的SME2扩展指令集。
  • C1家族全新支持SME2扩展指令集,全面面向AI矩阵运算优化性能和功耗,在AI任务中,SME2可使CPU集群的AI性能提升5倍,同时实现了3倍的能效提升。

虽然2025年Arm的发布会姗姗来迟,但是一口气发布的这么多款产品也是可圈可点的,整体也有比较明显的提升,让我们期待今年搭载最新Arm C1家族处理器的旗舰芯片的体验!

相关推荐
wanhengidc1 小时前
云手机存在的意义是什么
运维·服务器·arm开发·安全·智能手机
陌上花开缓缓归以13 小时前
phy降速自愈到100M重试流程分析
arm开发
凉、介13 小时前
ARM 总线技术 —— APB
arm开发·笔记·学习
电鱼智能的电小鱼1 天前
基于电鱼 ARM 工控机的煤矿主控系统高可靠运行方案——让井下控制系统告别“死机与重启”
arm开发·人工智能·嵌入式硬件·深度学习·机器学习
陌上花开缓缓归以1 天前
linux系统启动失败之flash异常分析
arm开发
电鱼智能的电小鱼2 天前
基于电鱼 ARM 工控机的井下AI故障诊断方案——让煤矿远程监控更智能、更精准
网络·arm开发·人工智能·算法·边缘计算
GilgameshJSS3 天前
STM32H743-ARM例程35-DHCP
c语言·arm开发·stm32·单片机·嵌入式硬件
GilgameshJSS3 天前
STM32H743-ARM例程34-BootROM
c语言·arm开发·stm32·单片机·嵌入式硬件
robin8611093 天前
Keil(MDK-ARM)和 STM32CubeIDE对比
arm开发·stm32·嵌入式硬件
学习和思考3 天前
为什么我的vscode有的时候可以跳转,有的时候不能跳转
arm开发·ide·驱动开发·vscode·学习·1024程序员节