游戏 AI 的巅峰之路:从 OpenAI Five 到 AlphaStar摘要: 游戏是强化学习的“果蝇”。在多智能体强化学习(MARL)的推动下,AI 已经不满足于下围棋,它们开始组队打 Dota,指挥千军万马打星际争霸,甚至在斗地主中学会了“配合”。本文将深度拆解 OpenAI Five (Dota 2) 和 AlphaStar (StarCraft II) 两大里程碑式系统的技术内核,重点分析 PPO 的大规模分布式训练、League Training(联盟训练) 以及 Team Spirit(团队精神系数) 等关键技术是如何在实战中落地的。