基于Anolis OS的国产CPU性能优化实践,共推多芯混部时代操作系统新范式

2025 年 11 月,备受瞩目的龙蜥大会在北京隆重举行。作为中国开源操作系统生态的重要里程碑,本届大会汇聚了来自芯片、硬件、软件及云服务等领域的顶尖专家与行业代表。会上,阿里云智能集团高级技术专家沈培以"国产 CPU 平台上操作系统和云产品性能优化实践"为主题,系统性分享了阿里云联合龙蜥社区以及 CPU 厂商等,在多架构异构计算环境下的深度技术积累与创新成果。

(图/阿里云智能集团高级技术专家沈培)

随着国家战略深入推进,国产 CPU 加速进入政企核心业务场景。然而,不同芯片架构在微架构设计、缓存布局、内存访问延迟等方面的显著差异,给云平台的性能一致性带来巨大挑战。尤其在阿里云飞天企业版所支持的"多芯混部"架构下------即在同一云平台中混合部署多种 CPU------如何保障上层云产品在各类国产芯片上实现高性能、高稳定、可预期的运行表现,成为行业亟待突破的关键课题。

对此,阿里云依托自研服务器操作系统 Alibaba Cloud Linux(基于龙蜥操作系统 Anolis OS 深度定制),联合国产 CPU 厂商、龙蜥社区及云产品研发团队,构建了一套覆盖"硬件---操作系统---云产品"全栈的性能优化体系,并在本次大会上系统地披露其核心技术路径。

从芯粒架构到 LLC 亲和, 直面国产 CPU 特性差异

当前国产主流 CPU 普遍采用 Chiplet(芯粒化)架构,虽提升了核心密度与多核性能,却也带来了访存延迟增加、末级缓存(LLC)分片化等新问题。例如,部分国产芯片在一个 NUMA Node 内包含多个独立 LLC 单元,传统仅基于 NUMA 节点的资源调度策略已难以发挥硬件潜力。

针对这一挑战,阿里云率先在操作系统层实现"LLC 粒度应用亲和性优化"。通过精准识别应用所需 CPU 核心数与 LLC 拓扑结构,动态调整进程/线程绑定策略:

将应用关键进程/线程优先限制在单个 LLC 共享核范围内,当应用并发进程/线程数量较多超出 1 个或多个 LLC 时,则最小化跨 LLC 调度,并优先选择物理距离最近的缓存单元。实测显示,该优化使云数据库 Tair 性能最高提升达 2 倍,PolarDB for MySQL 典型 4C 实例规格在跨 4 个 LLC 到不跨 LLC 情况下性能提升近 20%。

操作系统内核深度调优, 释放国产硬件潜能

为最大化国产平台性能,阿里云在 Alibaba Cloud Linux 中集成多项源自龙蜥社区的内核级优化特性。其中,"代码多副本"技术通过在本地 NUMA 节点复制远端代码段,有效避免跨节点代码段访问,在自研数据库大规格实例中带来约 9% 的性能增益;而"代码大页"则扩展透明大页机制,将程序可执行段映射至大页内存,显著降低 iTLB miss 率,在中间件场景中开启透明大页和"代码大页"后实现 80% 以上的性能跃升。

此外,面对 DDR5 内存普及带来的带宽提升与延迟增加并存的新局面,阿里云创新设计"内存亲和性资源管理器",将底层访存拓扑的远近关系抽象为可编程接口。云产品可根据业务需求(性能优先或资源利用率优先)动态选择最优内存分配策略。在云数据库 Tair 中,该优化额外带来 9%-15% 的吞吐提升。

软硬协同工程化, 打造可交付的性能基线

性能优化不仅是技术问题,更是工程落地问题。阿里云已将多芯平台的软硬件配置标准化、工程化,贯穿研发、招标、交付与运维全生命周期。通过建立"多芯软硬协同最优性能配置基线",不仅指导服务器厂商出厂预配置,更在客户上线及维保阶段部署两级自动校验机制,确保软硬件配置始终处于最佳状态,杜绝因固件或 BIOS 设置偏差导致的性能劣化。

AI 赋能性能分析, 开启智能调优新时代

值得一提的是,阿里云正积极探索大模型在性能优化中的应用。借助 Qwen 等大模型对 Linux 内核的深度理解能力,团队开发出智能化火焰图分析流程:自动剥离用户态与内核态调用栈,分别交由大模型解析,快速定位热点函数并生成优化建议。这一方法大幅缩短了传统性能调优周期,为人机协同的智能优化开辟新路径。

共建龙蜥生态, 共筑国产云底座

此次分享不仅彰显了阿里云在异构计算时代的全栈技术实力,更凸显了龙蜥操作系统作为国产基础软件核心载体的关键作用。作为龙蜥社区的发起者与核心贡献者,阿里云持续将飞天企业版在真实业务场景中验证的优化能力反哺社区,推动 Anolis OS 成为兼容多架构、支撑高性能云原生应用的操作系统基石。

未来,阿里云将进一步深化与龙蜥社区的合作,推进 KeenTune 等智能调优工具在飞天企业版中的集成,并计划将性能分析工具在线化,实现对线上应用的实时热点对比与自动优化,持续缩小乃至超越国际主流平台的性能差距。

在国产浪潮奔涌向前的今天,阿里云以操作系统为支点,以龙蜥为纽带,正携手产业链伙伴,共同构建安全、高效、自主可信的云基础设施新生态。

------ 完 ------

相关推荐
lcreek1 天前
Linux信号机制详解:阻塞信号集与未决信号集
linux·操作系统·系统编程
哥布林学者1 天前
吴恩达深度学习课程五:自然语言处理 第二周:词嵌入(四)分层 softmax 和负采样
深度学习·ai
Tao____1 天前
JAVA开源物联网平台
java·物联网·mqtt·开源·ruoyi
卓码软件测评1 天前
第三方软件测试测评机构【使用web_reg_save_param_ex函数:掌握LoadRunner关联的黄金法则 】
测试工具·ci/cd·性能优化·单元测试·测试用例
Yeats_Liao1 天前
开源生态资源:昇腾社区ModelZoo与DeepSeek的最佳实践路径
python·深度学习·神经网络·架构·开源
陆研一1 天前
2026国内无痛使用Gemini 3与GPT-5.2
人工智能·ai·chatgpt
yuguo.im1 天前
我开源了一个 GrapesJS 插件
前端·javascript·开源·grapesjs
明洞日记1 天前
【软考每日一练008】Web 服务器性能测试指标
运维·服务器·操作系统·软考
俊哥V1 天前
[本周看点]AI算力扩张的“隐形瓶颈”——电网接入为何成为最大制约?
人工智能·ai
~kiss~1 天前
大模型分词tiktoken、BPE、Sliding Window、Stride、DataLoader批次
ai