AI 基础设施：构建AI时代全栈云计算体系

生成式AI 新时代下催生新的基础设施需求

随着企业在数字化转型之路上越走越远，期间一场新的技术革命正在发生，近几年涌现的生成式AI技术正在迅速改变科技、商业和整个社会的格局。这种强大的技术能够从数据中学习并生成预测性输出，生成式 AI 既是未来的趋势，也是一场实时颠覆各行各业的革命。

生成式 AI 的出现正在迅速推动从医疗和金融，到娱乐和教育等各个领域的创新。通过自动执行例行任务和生成内容，这些 AI 模型可显著提高效率，降低运营成本，并为用户互动开辟新途径。例如，生成式 AI 可帮助根据用户偏好创建个性化数字内容、通过自然语言生成代码，或轻松地总结信息并提供相关背景来帮助团队更快地制定决策。

将生成式 AI 技术全面整合到企业业务中，可以显著改变企业的运营和竞争方式，让企业能够发挥创新型解决方案的价值、实现流程自动化、改进决策过程并提供个性化客户体验。

然而，与任何技术革命一样，实施这种强大的 AI 模型本身也面临着挑战。传统计算基础设施是为前 AI 时代构建的，无法提供这些 AI 模型所需的计算资源和可伸缩性。为了满足指数级增长的计算需求，最新迭代的 AI 模型需要完全不同的架构。

由于拥有数十亿个参数和庞大的训练数据集，生成式 AI和 LLM 需要的计算资源达到前所未有的规模。这需要更强的处理能力、更快的内存、更大的存储空间和极其快速的网络连接，而传统基础设施的能力却难以达到。为了支持这些高级模型，专门构建的基础设施有助于确保充分发挥生成式 AI 的强大能力，提供它们所需的高性能和强大的计算能力。此外，利用这种基础设施，组织还能高效地扩缩 AI 计划，使组织能够适应不断变化的业务需求，并在充满活力的 AI 领域抓住新机遇。

AI基础设施：生成式 AI 的支柱

支撑生成式 AI 解决方案的基础设施是可靠、高效的 AI 运营的基石。相对传统基础设施提出了一些新的要求。

成本：如何优先考虑成本效益

成功的 AI 基础设施战略必须优先考虑成本效益。由于生成式 AI 模型和 LLM 需要大量资源进行训练和开发，如果没有精心规划和托管式的基础设施，这些成本很快就会失控。选择合适的云提供商、优化资源利用率并利用 AI 专用工具和功能，可以大大降低这些成本，同时确保 AI 模型高效运行。如果对 AI 优化型基础设施的投资力度不足，组织面临的机会成本可能会非常高，进而导致产品性能低下、扩缩困难和错失良机

性能：如何提高速度和效率

现代工作负载的增长速度已经超过现有本地基础设施的发展速度，而摩尔定律逐渐开始失效，仅靠硬件已无法满足需求。您需要一种适应性强和软件定义的基础设施方法，全面优化堆栈的每一层，而不是接受局限性。对于数据驱动型公司，解决方案就是为高效满足激增的工作负载需求而设计的灵活云平台。

可伸缩性：如何为增长铺平道路

在快速发展的 AI 世界，可伸缩性很关键。AI 模型在不断增长，有些模型的参数预计将超过数千亿个。这些模型将需要几十 ExaFLOP (1018 FLOP) 的 AI 超级计算能力，以便将训练时间缩短为几周或更短。要实现这一性能，将需要数以万计的加速器高效地协同工作。但事实证明，传统的扩缩解决方案往往不足以满足需求，需要复杂的手动调优，导致性能不够理想。为了避免这些问题并充分发挥生成式 AI 的强大潜力，找到一种能根据 AI 需求进行无缝扩缩的基础设施解决方案就变得至关重要了。利用云端解决方案可以提供必要的可伸缩性，同时确保成本效益和高性能。

轻松驾驭生成式 AI 部署：帮助取得成功关键步骤

评估计算需求：

生成式 AI 需要很高的 GPU/TPU 性能，因此应估算工作负载需求，以确保有足够的容量。

评估数据流水线：

高质量数据对于训练生成模型至关重要。审核数据源、ETL 流程、标签等。

实施 MLOps：

为了构建、部署和监控生成式 AI 模型，需要制定MLOps 流程，如版本控制、实验跟踪和模型监控。

评估模型风险：

生成模型存在偏见、恶意和幻觉等风险。通过测试和监控实施安全措施。

评估AI伦理；

考虑生成模型的潜在危害，并通过伦理审查程序减轻危害。

审核安全状况；

生成模型会带来安全风险。审核 IAM、网络安全、用户身份验证和访问权限控制。

规划可伸缩性：

设计可快速扩缩计算、存储空间和网络等资源的基础设施，以满足不断增长的需求。

启用协作功能：

生成式 AI 需要数据科学家、工程师、业务团队和技术主管之间的通力协作。确保工具已准备就绪。

9.考虑平台：

例如基于Google Cloud ，利用 Vertex AI 等云端 AI 平台，借助 Google Cloud 及其合作伙伴生态系统提供的预训练模型加速开发。

制定 Responsible AI 原则：

根据组织的价值观，制定并落实一系列负责任的原则。

投资于技能培养：

赞助 MLOps、提示工程和有关生成式 AI 的学习路径的培训，以提高员工的熟练度。

构建AI时代全栈云计算体系

在成功确定并解决关键的基础设施要求后，重点就要转移到 AI 平台的选择上。作为一个中间层，这一关键层不仅能与现有基础设施无缝集成，还能提供对高级 AI 模型和工具的必要访问权限，这对有效的训练和推理至关重要。AI 平台的选择不仅是一项技术决策，更是一项战略决策，将直接影响 AI 项目的敏捷性和适应性。无效的 AI 平台会导致成本超支、模型缺陷和竞争优势下降。

基于AI 基础设施&AI平台构建统一的工具集。研发团队无需将不同的工具组合在一起，因而可以避免浪费大量时间，也省去了许多麻烦，这将简化从想法、训练到部署的 AI 之旅。例如：通过在 Google Kubernetes Engine (GKE) 和 Compute Engine 以及 Google Cloud TPU 基础设施上配置和部署 AI 模型，团队能够加快最新基础模型的大规模训练和推理，同时享受自动扩缩、工作负载编排和自动升级支持。"

在灵活且可伸缩的环境中，AI模型会蓬勃发展，而虚拟机 (VM) 和容器等解决方案提供了可定制和可优化的平台来运行生成式 AI 工作负载。借助 Compute Engine 的可伸缩虚拟机，您的数据科学团队可以在数秒内启动专为大规模模型训练定制的环境。而GKE 的动态容器有助于在混合、多云和边缘环境中无缝部署资源需求量大的模型。TPU 等专用 AI 基础设施通过并行处理和张量计算，优化和加速机器学习工作负载的处理。

例如，Google Cloud 使用超过5万个TPU v5e 芯片，为适用于大语言模型的全球最大的分布式训练作业提供了支持，这些芯片能够实现 10 exa-FLOP（16 位）或 20 exa-OP（8 位）的总峰值性能。

如何为生成式 AI 选择合适的工具？

就生成式 AI 而言，虚拟机和容器都可以发挥一定的作用，如何选择取决于我们应用场景的具体情况。例如，如果您正在处理高度敏感的数据，可能更需要虚拟机出色的隔离性。而对于有许多重复任务的大规模部署，或需要动态快速扩展或缩减的应用，可能更需要容器的轻量和可扩缩特性。是选择虚拟机还是容器取决于在安全性、隔离、资源利用率和可伸缩性方面的具体需求。某些情况下，同时包含虚拟机和容器的混合解决方案可能是最优选择。了解这些考量因素将有助于指导您做出决定，并高效高质地实现生成式 AI 部署。

虚拟机：计算的组成要素

虚拟机模拟物理计算机，每个虚拟机都有自己的操作系统 (OS) 和资源。虚拟机具有高度可控性，非常适合运行需要特定操作系统或硬件配置的应用。虚拟机的主要优势之一是具有良好的隔离性。每个虚拟机都是独立运行的，它们通过隔离应用及其依赖项来提供额外的安全保障。这使虚拟机非常适合运行具有多个依赖项的大型复杂应用。

容器：轻量级替代方案

容器是一种更轻量级的计算选择。它们将代码及其依赖项封装在一起，这样应用就能在不同计算环境之间快速、可靠地运行。与虚拟机不同，多个容器可以运行在同一个操作系统内核上，从而共享资源并减少开销。容器的优势是其可携性和效率。它们几乎可以立即启动，使用更少的资源，而且可以随处运行，因此非常适合基于微服务的应用或在不同环境中部署应用。虽然容器共享主机内核，但这种灵活性有利于为特定应用定制安全配置和资源分配。

加速器：动力助推器

生成式AI 加速器（如 GPU 和 TPU 芯片）经过优化，可执行高强度并行处理，满足深度学习、调优和 AI 推理的需求，而这些从来不是 CPU 的设计用途。GPU 和 TPU 可显著缩减与计算密集型生成式 AI 工作负载相关的时间和成本。无论是部署本地服务器，还是利用云端加速器实例，集成高性能硬件加速器对于大规模实施生成式 AI 都至关重要。

数据：生成式 AI 的基础

数据库是生成式 AI 的基础，用于存储和检索大量数据。数据库的选择会影响 AI 的性能、可伸缩性和可靠性。 Google Cloud的BigQuery 是一个可靠、灵活的全托管式数据仓库。它可以实现速度超快的 SQL 查询和大型数据集的实时分析，是生成式 AI 的理想选择。在选择数据库时，需要考虑诸多因素，例如与 AI 框架的兼容性、高负载场景下的性能、结构化和非结构化数据的处理，以及安全措施等。

网络组建和管理：数据流水线

采用以服务为中心、任意 (any-to-any) 互连的网络组建和管理方式是部署生成式 AI 的重要架构考虑因素。为了优化 AI 算法效率，理想做法是选择一项能够提供高性能、低延迟互连，跨多个云实现一流应用服务的云服务。为了应对这一挑战，Google Cloud 推出了 Cross-Cloud Network 等专用网络组建和管理功能，来提供可靠的高吞吐量。Cross-Cloud Network 是一个开放、安全且针对本地和云端的应用和用户进行了优化的全球网络平台。它使用 Google Cloud 的全球级网络来实现多云连接，并保护应用和用户。随着生成式 AI 模型的规模和复杂性不断增加，检查并解决网络连接的限制和意外情况有助于确保基础设施的可伸缩性。

运营： AI 系统的检测信号

运营工具对于 AI 系统的日常运行至关重要。这些工具有助于监控、管理、维护和优化 AI 解决方案的性能，提供有关系统行为的见解，并在潜在问题愈演愈烈之前发出提醒。这种时刻保持警惕的做法是生成式 AI 系统实现理想输出的关键所在，让您能够及时做出干预和调整，从而使系统以最佳状态运行。适用于 Google Cloud 的 Gemini 为您的团队提供了一个 AI 赋能的协作者，用于快速进行问题排查，通过对话协助调试代码，并充当最佳实践方面的主题专家。