随着半导体行业的不断发展,Arm 通过突破技术界限,为终端用户提供尖端解决方案,在核心和 IP 架构创新方面处于领先地位,尤其是在移动领域。2024 年,Arm 的年度战略进步重点是增强去年的 Armv9.2 架构,并带来新的变化。Arm 已重新打造品牌并重新制定战略,推出了 Arm 计算子系统 (CSS),这是去年 Total Compute Solutions (TSC2023) 平台的直接继任者。
Arm 还在将其最新的 IP 和 Cortex 核心设计(包括最大的 Cortex X925、中间的 Cortex A725 以及更新的较小 Cortex A520)过渡到更先进的 3 nm 工艺技术。Arm 承诺,与去年的设计相比,3 nm 工艺节点将提供前所未有的性能提升、能效和可扩展性改进,以及对其 Cortex 系列核心的新前端和后端改进。Arms 的新解决方案有望为下一代移动和 AI 应用程序提供支持,因为 Arm 及其完整的 AArch64 64 位指令执行和面向移动和笔记本电脑的解决方案方法有望重新定义最终用户对 Arm 产品上的 Android 和 Windows 的期望。
Arm Arm 计算子系统 (CSS):CSS 是新的 TCS
Arm 计算子系统 (CSS) 的推出标志着 Arm 战略的一个重要里程碑,该战略旨在为合作伙伴提供全面而全面的计算解决方案,供其在新一年的移动设备周期中实施。CSS 是一个综合平台,集成了硬件、软件和工具,以优化客户端设备的性能和效率。它旨在为各种设备(从智能手机和平板电脑到笔记本电脑甚至台式电脑)提供无缝的计算体验。
Armv9.2 架构于去年推出,代表着 Arm 路线图向前迈出了重要一步。不过,今年,Arm 将在前代产品成功的基础上,引入一系列新功能和改进。改进后的 Armv9.2 系列的主要亮点之一是使用增强的安全功能,包括内存标记扩展 (MTE) 和机密计算架构 (CCA)。这些功能可针对各种安全威胁提供强大的保护,使设备更加安全。
CSS 利用为 2024 年设计的最新 Armv9.2 内核,包括高性能 Cortex X925、均衡的 Cortex A725 以及节能且更新的 Cortex A520。这些内核与 Arm 的全新 Immortalis G925 GPU 相得益彰,旨在以移动设备大小的封装提供卓越的图形性能和效率。这些组件共同构成了现在所谓的 CSS 平台的基础,该平台旨在为移动领域的现代设备提供强大而多功能的计算解决方案。
CSS 的主要特点之一是其强大的可扩展性,可适应不同的市场,例如移动设备和笔记本电脑。该平台旨在适应不同的设备外形和性能要求,适合多种任务和应用。无论是高端游戏、专业内容创作还是日常生产力任务,CSS 都可以根据各种用例的需求进行定制。
Arm 的 Arm 计算子系统 (CSS) 平台代表了 IP 设计和架构改进方面迈出的重要一步,在性能和效率方面提供了多项重大改进。随着第二代 Armv9.2 Cortex CPU 集群的推出,包括新的 Cortex-X925(大)、Cortex-A725(中)和更新的 Cortex-A520(小)内核,CSS 平台旨在授权给合作伙伴时提供极致的移动计算性能。
此外,CSS 平台还包括适用于 Android 的全面参考软件堆栈、由新的 Arm 计算机视觉库(KleidiAI 和 KleidiCV)支持的优化 AI,以及通过 Arm Performance Studio 提供的强大工具环境。这种典型的整体方法可确保 Arm 的物理实现达到 3.6 GHz 以上的速度,并在 3 nm 节点上提供最佳的功率、性能和面积 (PPA) 指标。谈到 3 nm 模式,Arm 表示台积电和三星 3 nm 是其 CSS 核心集群的主要选择,尽管最有可能的是与台积电一起获得晶圆厂分配的情况,因为我们不确定是否有人会使用三星而不是台积电。
除了安全性增强之外,基于 3 nm 的 Armv9.2 还承诺大幅提升性能,尤其是新的大核心 Cortex X925,Arm 认为它是移动领域的新 IPC 之王。该架构已针对更高的时钟速度和更高的效率进行了优化,从而可以提供更高的每瓦计算能力。这是通过多项架构创新实现的,包括更宽的执行管道、改进的分支预测和增强的乱序执行功能。这些增强功能提高了内核的每周期指令数 (IPC),确保它们可以轻松处理最苛刻的工作负载。
过渡到 3 纳米工艺技术
转向 3 纳米工艺技术代表着半导体制造的重大飞跃,在性能、功耗和芯片密度方面均有显著改善。这一转变使 Arm 能够提供更强大、更高效的处理器,能够高效处理最苛刻的应用程序。
3 nm 工艺的主要优势之一是它能够在更小的面积内封装更多晶体管,从而提高性能并降低功耗。这对于移动和便携式设备至关重要,因为电池寿命和热管理是关键考虑因素。3 nm 工艺还使 Arm 能够在 Cortex X925 内核上提高时钟速度,确切地说最高可达 3.8 GHz。这可以实现更快、响应更快的计算体验,并将整体 IPC 性能推向超越现有水平。
Arm 声称,更新后的 Armv9.2 架构、全新 CSS 平台以及 3 纳米制程技术的结合,旨在全面提升性能和效率。从理论上讲,这应该能够为所有类型的设备实现其参考 CPU 核心集群设计,现在两个 Cortex X 核心已成为常态,而去年的参考设计只有一个。Arm 进行并展示的基准测试和实际测试(不应全盘接受)显示,单线程和多线程性能都有了显著提升,使得这些新解决方案成为各种应用的理想选择。Arm 甚至宣称,其最大核心 Cortex X925 在单线程 IPC 方面处于领先地位,超越了英特尔和 AMD 的能力,这是一个大胆的说法。
至于电源效率,新内核旨在提供更高的每瓦计算能力,从而降低能耗并延长电池寿命。这对于移动设备来说尤其重要,因为用户需要更长的电池寿命,同时又不影响性能。电源效率的提高还意味着更好的热管理,确保设备即使在繁重的工作负载下也能保持凉爽和响应迅速。
除了性能和效率的提升,新解决方案还带来了增强的安全性和AI功能。Armv9.2架构的内存标记扩展(MTE)和机密计算架构(CCA)可针对各种安全威胁提供强大的保护,确保数据和应用程序的安全。
新内核和 GPU 增强的 AI 功能也值得关注。随着 AI 在现代应用中的重要性日益提高,新解决方案旨在加速 AI 工作负载,提供更快、更高效的 AI 处理。这是通过专用的 AI 加速器和优化来实现的,这些加速器和优化充分利用了新架构和工艺技术的潜力。
工艺技术向 3 nm 迁移为半导体制造带来了许多机遇和挑战。对于软 IP,更大、更复杂的微架构需要更强的电压调节和缓解功能,以确保稳定性和性能。关键目标是优化目标节点上的正确 PPA(功率、性能、面积)。对于物理 IP,工艺复杂性带来了自身的挑战,包括扩展限制和支持更宽动态电压和频率缩放 (DVFS) 频谱的要求。此外,在极端功率密度下,这应该可以缓解热问题,并确保设备高效运行,这在移动设备中非常重要
为了应对这些挑战,Arm 全面审视 RTL 和物理实现的共同开发。这确保了其计算 IP 能够满足性能预期,同时克服先进工艺技术的挑战。
Armv9.2、CSS 和 3 nm 技术的进步为各种应用开辟了新的可能性,包括开发人员访问新的 Arm Kleidi 库。在移动领域,这些解决方案使更强大、更高效的智能手机和平板电脑能够处理复杂的任务,例如 AI 驱动的摄影、游戏和生产力。
新的解决方案以便携式外形尺寸为 PC 市场提供台式机级性能,使其成为笔记本电脑和二合一设备的理想选择。改进的性能和效率也有利于专业内容创作,从而实现更快的渲染、编辑和多任务处理。
在人工智能和机器学习领域,新解决方案提供了高级人工智能应用所需的计算能力,从自然语言处理和计算机视觉到自主系统和机器人技术。增强的人工智能功能可确保这些应用程序高效运行,从而提供更快、更准确的结果。
随着 Arm 不断突破半导体技术的界限,专注于增强 Armv9.2 架构、推出 CSS 平台以及过渡到 3 nm 工艺技术标志着向前迈出了重要一步。这些进步大大提高了性能、能效和安全性,使新一代设备能够轻松处理最苛刻的应用程序。
结合这些技术,我们能够提供强大且多功能的计算解决方案,该解决方案可以扩展到不同的设备外形和用例。无论是高端游戏、专业内容创作还是日常生产力任务,Arm 的最新解决方案都旨在提供最佳的计算体验。
好的硬件得益于好的软件
Arm 硬件的进步得益于一个复杂的软件生态系统,该生态系统旨在充分发挥其处理器的潜力。这个生态系统的核心是新的 Kleidi 库,它在优化人工智能 (AI) 和基于计算机的应用程序方面发挥着至关重要的作用。这些库为开发人员提供了量身定制的工具,以最大限度地提高 Arm 最新内核的性能和效率。
KleidiAI 是专注于加速 AI 工作负载的关键组件。它包括一套针对 Arm 架构优化的全面计算内核,能够高效执行各种 AI 任务,例如机器学习、自然语言处理和数据分析。通过为常见的 AI 操作提供高度优化的例程,KleidiAI 可让开发人员在保持能源效率的同时实现显着的性能提升。随着 AI 应用在移动设备、智能家居系统和工业自动化中变得越来越普遍,这一点变得越来越重要。
另一方面,KleidiCV 则针对计算机视觉工作负载。该库为图像处理、对象检测和场景识别等任务提供了优化的功能。将 KleidiCV 与 Arm 的架构集成可确保应用程序能够快速高效地处理视觉数据,使其成为增强现实、自动驾驶汽车和智能监控系统的理想选择。通过利用这些优化的库,开发人员可以构建在基于 Arm 的硬件上流畅运行的复杂应用程序,充分利用 3 nm 工艺技术带来的性能和能效改进。
除了 Kleidi 库之外,Arm 还提供了一套强大的开发工具和平台。Arm 计算子系统 (CSS) 平台包括参考软件堆栈和性能优化工具,如 Arm Performance Studio,它提供有关应用程序性能的详细见解,并帮助开发人员微调其软件以实现最高效率。这个全面的支持系统确保开发人员能够快速有效地将创新应用程序推向市场,充分利用 Arm 最新的架构进步。
在接下来的几页中,我们将分解 Arm 在其 2024 CPU 集群中的改进,包括新的 Cortex X925 和 Cortex A725 内核以及使用最小内核 Cortex A520 所做的改进。