巨人网络《超自然行动组》携手阿里云打造云原生游戏新范式

从开服第一天起,就跑在云上;

上线一年,DAU 已经突破 1000 万;

高峰期百万玩家同时在线,零重大故障。

这不是科幻,而是巨人网络与阿里云共书写的云原生实战。

《超自然行动组》的云原生架构先行战略

2025 年 1 月,巨人网络推出多人组队欢乐冒险游戏《超自然行动组》,凭借创新的"中式微恐+多人合作"的独特玩法,迅速成为现象级产品。最近,《超自然行动组》宣布 DAU 突破 1000 万,更攀升至 iOS 游戏畅销榜第四。尤为值得一提的是,自开服第一天起,这款游戏从未部署在任何物理机或传统虚拟机上------它从第一天起,就运行在云原生架构之上

对于大多数游戏公司而言,"上线即爆款" 是甜蜜的烦恼------流量洪峰来得快、退得慢,而传统架构却"笨重":

  • 游戏服(如战斗服、房间服)部署在固定服务器,扩容需数天;
  • 为应对峰值需长期预留资源,空闲时浪费严重;
  • 版本更新靠脚本,灰度发布难,一出错就"全服回滚";
  • 日志分散、监控割裂,故障定位动辄几小时;
  • 安全防护薄弱,易受 DDoS 攻击;
  • 数据层瓶颈突出:战斗结算延迟、排行榜卡顿、玩家数据丢失等问题频发。

《超自然行动组》团队深知:若沿用旧模式,很可能"倒在成功的路上"。

于是,他们选择了一条更难但更远的路------全面拥抱云原生

通过 ACK(容器服务)、ESS(弹性伸缩)、网络型负载均衡 NLB、OpenKruiseGame(OKG)、SLS(日志服务)、ARMS(应用实时监控服务)、阿里云原生防护(Native Protection),以及云原生数据库 polardb 和 Redis 的深度协同,巨人网络构建了一套高弹性、高可用、低成本、智能化、高安全且高性能数据处理能力的新一代游戏基础设施,为行业树立了云原生落地的标杆。如今,随着日活跃用户(DAU)突破千万大关,这套技术体系,已经成为游戏行业"云原生转型"的标杆案例。

高弹性×低延迟×零故障:解码<超自然行动组>的云原生底座

《超自然行动组》基于阿里云 ACK 与 OpenKruiseGame(OKG)构建了业界领先的云原生游戏服架构:通过蓝绿发布与原地升级实现零停机、无感交付;通过 OKG+多 NLB 资源池,全面覆盖 BGP、电信、联通、移动等主流线路,实现多运营商网络自动化映射。结合 HPA 智能扩缩容与 OKG 优雅下线机制,在成本与用户体验间取得平衡;通过 ACK Koordinator 组件,实现 CPU Burst 与 QoS 精细化调度,显著提升集群资源利用率;并通过基础设施与业务状态的双向感知,构建起"业务语义驱动"的自动化运维闭环------真正实现了高弹性、高可用、高性能、高安全的新一代游戏后端体系。在显著降低运维压力的同时,实现了机制化、可持续的成本优化。

在网络层面,作为一款对延迟极度敏感的竞技手游,《超自然行动组》依托阿里云打造了"云边协同、三网通吃、弹性集约"的新一代云网络架构:通过 OKG 与 NLB 实现电信、联通、移动、BGP 四线并发接入,全国玩家自动匹配最优链路,并以"静态网络+动态计算"创新模式达成 50 节点/分钟的极速扩容,15 分钟内可拉起数千战斗服,彻底告别排队;同时,借助阿里云高速通道,将本地机房的账号、支付等核心系统与上海 VPC 内网直连,构建毫秒级同步、金融级安全的混合云中枢;并通过共享带宽包统一聚合公网出口,在简化运维的同时显著降本,为玩家交互与高频状态同步提供弹性"带宽蓄水池",真正实现千万玩家同场竞技零卡顿、零等待的极致体验。

在数据层面,云原生 polardb 和 Tair(兼容 Redis)构建了弹性,稳定的玩家存档方案,支持千万级玩家高并发登录和读写,基于 polardb 云原生数据库的存算分离和弹性能力,支持游戏在活动期间自动扩展弹性,并且支持玩家数据的秒级备份和回档,大幅降低了数据库的运维成本,并且 PolarDB Serverless 支持自动扩容和缩容,能够根据用户访问量的实时变化,秒级调整计算资源。在高峰时期自动增加资源,低谷时期自动减少资源,确保社区始终运行在最佳状态。基于阿里云 Tair(兼容 Redis)支持玩家超高并发的访问,作为实时排行榜、战斗状态缓存和匹配池的核心,依托多线程与持久内存优化,单实例 QPS 超百万,实现毫秒级排名刷新、瞬时结算与断线无缝恢复。

当数百万玩家涌入《超自然行动组》,DDoS 攻击成为影响体验的关键风险。为此,巨人网络联合阿里云,基于云原生安全架构打造了一套高性能、智能化的防护体系。该方案依托阿里云原生高防能力,无需架构改造,一键接入即可实现 TB 级 DDoS 攻击的毫秒级识别与精准清洗,防护能力行业领先。即便在版本更新或大型赛事等高并发场景下,系统仍保障 99.99% 以上服务可用性,真正做到"攻击零感知、切换无中断"。面对突发流量洪峰,系统支持防御带宽自动弹性伸缩,动态调配资源,避免因容量不足导致服务中断。同时,通过集成安全事件中心,运营团队可实时监控攻击事件,分析攻击类型与特征,并结合 AI 驱动的策略建议,快速部署定制化游戏协议防护规则,显著提升响应效率与防御精准度。从高效清洗到智能决策,阿里云以"稳定、高效、安全"为核心,为《超自然行动组》构筑起坚不可摧的数字护盾,在保障千万玩家流畅竞技的同时,也为游戏行业树立了云原生安全新标杆。

对于《超自然行动组》这款主打实时互动的竞技游戏,"能跑" 只是起点,"看得清、查得准" 才是保障千万玩家流畅体验的关键。运维团队摒弃传统分散监控工具,基于阿里云日志服务 SLS 、云监控 CMS 的 Prometheus 服务、Grafana 服务,搭建起轻量、标准、深度集成的可观测体系:

  • 依托 Prometheus 实时采集百万级 PCU 下的资源水位与在线人数、匹配时长等核心业务指标,确保高并发下监控精准不丢点;
  • 通过 SLS 统一汇聚全链路日志,支持按 RequestID / 玩家 ID 秒级还原行为路径,结合 SQL 分析与自定义规则,实现地图报错统计、异常操作追踪;
  • 借助 Grafana 打造统一全景大盘,融合展示指标与日志数据,告警时可一键跳转 SLS 查看关联日志,实现 "指标发现问题、日志定位根因" 的闭环,将故障响应时间从小时级压缩至分钟级,充分发挥云原生可观测与协同优势。

超自然云原生架构

从"能跑"到"跑赢":OKG 重塑游戏后端新范式

当一款游戏从"能跑"走向"跑得快、跑得省、跑得稳",背后一定有一套先进的技术底座在支撑。《超自然行动组》的故事,源于巨人网络,也属于所有正在思考"如何用云原生重构游戏后端"的开发者。

面对全球游戏市场对高并发、低延迟及快速迭代的极致追求,OpenKruiseGame (OKG) 作为阿里云打造的"为游戏而生"的云原生游戏服管理方案,正成为推动行业架构平滑升级的核心引擎。针对游戏业务特有的异构性管理难题,OKG 提供了从精细化配置、自动化网络接入到业务状态感知的一站式管理体系。它不仅极大降低了游戏厂商的云原生转型门槛,更通过全球多地域一致性交付能力,助力开发者突破地域限制,实现业务的快速敏捷部署与全球化扩张。

云原生,已不再是互联网应用的专属,而是下一代游戏基础设施的必然选择。

相关推荐
SilentSamsara20 分钟前
存储卷体系:EmptyDir/HostPath/PV/PVC/StorageClass 的选型决策树
服务器·微服务·云原生·容器·架构·kubernetes·k8s
王的宝库1 小时前
【K8s】集群安全机制(二):授权(Authorization)详解与实战
学习·云原生·容器·kubernetes
东北甜妹3 小时前
Docker 容器故障排查
云原生·eureka
Shining05964 小时前
QEMU 编译开发环境搭建
人工智能·语言模型·自然语言处理·云原生·qemu·vllm·华为昇腾
匀泪1 天前
云原生(Kubernetes service微服务)
微服务·云原生·kubernetes
倔强的胖蚂蚁1 天前
Ollama Modelfile 配置文件 全指南
云原生·开源
AutoMQ1 天前
AWS 新发布的 S3 Files 适合作为 Kafka 的存储吗?
云原生·消息队列·云计算
MY_TEUCK1 天前
从零开始:使用Sealos Devbox快速搭建云原生开发环境
人工智能·spring boot·ai·云原生·aigc
没有口袋啦2 天前
《基于 GitOps 理念的企业级自动化 CI/CD 流水线》
阿里云·ci/cd·云原生·自动化·k8s
柯西劝我别收敛2 天前
Koordinator-Scheduler 调度器源码解析
后端·云原生