掌握 LLM 技术:LLMOps

这篇文章最初发表在 NVIDIA 技术博客上。

企业比以往更依赖数据和 AI 来创新、为客户创造价值并保持竞争力。机器学习 (ML) 的采用催生了对工具、流程和组织原则的需求,这些需求是为了管理那些可靠、经济高效且能够大规模运行的代码、数据和模型。这通常被称为 机器学习操作MLOps)。

世界正在迅速进入一个由基础模型,尤其是大型语言模型 (LLM) 提供动力支持的新生成式 AI 时代。ChatGPT 的发布进一步加速了这一转变。

生成式 AI 操作 (GenAIOps) 和大型语言模型操作 (LLMOps) 的新专业领域随着 MLOps 的演变而出现,旨在解决在生产环境中开发和管理生成式 AI 和 LLM 驱动的应用所面临的挑战。

在本文中,我们概述了生成式 AI 应用开发之旅,定义了 GenAIOps 和 LLMOps 的概念,并将其与 MLOps 进行了比较。我们还解释了为什么掌握运营对于执行企业级 AI 转型的业务领导者至关重要。

为企业构建现代生成式 AI 应用

构建现代生成式 AI 应用的旅程从基础模型开始,该模型会经历预训练阶段,以学习有关世界的基础知识并获得紧急功能。下一步是使用由人类生成的提示和响应的精选数据集,使模型与人类的偏好、行为和价值观保持一致。这为模型提供了精确的指令遵循功能。用户可以选择训练自己的基础模型或使用预训练模型。

例如,各种基础模型,如 NVIDIA NeMo Megatron-3 和社区模型,Llama,都可以通过 NVIDIA AI Foundations 获得。这些模型都得到了 NVIDIA 专有算法和系统的优化,以及安全性和企业级支持的增强,详情请见 NVIDIA AI Enterprise

图 1.由自定义基础模型和检索增强代提供支持的生成式 AI 应用程序的生命周期

接下来是自定义阶段。基础模型与特定于任务的提示符相结合,或在精心策划的企业数据集上进行微调。基础模型的知识仅限于预训练和微调数据,除非不断重新训练模型,否则会随着时间的推移而过时,而这可能会付出高昂的代价。

一个 检索增强一代 (RAG) 工作流程用于保持信息的新鲜度,并在查询期间让模型以外部知识为基础。这是生成式 AI 应用开发生命周期中最关键的步骤之一,也是模型学习隐藏在企业数据中的独特关系时的关键步骤之一。

完成自定义后,模型可以独立使用,也可以作为链的一部分使用,链结合了多个基础模型和 API 来提供端到端应用程序逻辑。此时,至关重要的是测试整个 AI 系统的准确性、速度和漏洞,并添加护栏以确保模型输出准确、安全可靠。

最后,反馈回路关闭。用户通过用户界面与应用程序交互,或使用系统仪器自动收集数据。这些信息可用于不断更新模型和 A/B 测试,从而提高其对客户的价值。

企业通常拥有许多针对不同用例、业务功能和工作流程定制的生成式 AI 应用。此 AI 产品组合需要持续监督和风险管理,以确保平稳运营、合乎道德的使用,并针对处理事件、偏见或回归发出及时警报。

GenAIOps 通过自动化加速了从研究到生产的过程。它优化了开发和运营成本,提高了模型的质量,增加了模型评估流程的可靠性,并保证了大规模的持续运营。

了解 GenAIOps、LLMOps 和 RAGOps

有几个术语与 生成式 AI 相关。我们将在下一节中概述这些定义。

图 2.按专业级组织的 AI 类型和相关操作的层次结构

将 AI 视为一系列嵌套层。在最外层,ML 涵盖了智能自动化,其中的程序逻辑不是明确定义的,而是从数据中学习的。随着我们深入探讨,我们会遇到专门的 AI 类型,例如基于 LLM 或 RAG 构建的 AI 类型。同样,有一些嵌套概念可实现可再现性、重复使用性、可扩展性、可靠性和效率。

每个模型都基于先前的模型构建,并添加或优化了从基础 MLOps 到新开发的 RAGOps 生命周期的功能:

  • MLOps 是一个总体概念,涵盖了从端到端的机器学习系统在生产中的开发与操作所需的核心工具、流程和最佳实践。
  • GenAIOps 扩展了 MLOps,用于开发和运营生成式 AI 解决方案。GenAIOps 的显著特点在于管理基础模型并与其交互。
  • LLMOps 是一种专门用于开发和部署基于大型语言模型 (LLM) 解决方案的独特 GenAIOps。
  • RAGOps 是 LLMOps 的子集,专注于 RAG(Retrieval-Augmented Generation)的交付和操作。它也可以被视为生成式 AI 和大型语言模型 (LLMs) 的终极参考架构,推动了其大规模采用。

GenAIOps 和 LLMOps 涵盖整个 AI 生命周期。这包括基础模型预训练、通过监督式微调实现模型比对、从人类反馈中进行强化学习 (RLHF)、针对特定用例与预处理/后处理逻辑相结合的自定义、与其他基础模型、API 和护栏的链。RAGOps 范围不包括预训练,并假设提供了基础模型作为 RAG 生命周期的输入。

GenAIOps、LLMOps 和 RAGOps 不仅涉及实现 AI 开发的工具或平台功能,还涵盖了设定目标和 KPI、组织团队、衡量进度和不断改进运营流程的方法。

为生成式 AI 和 LLM 扩展 MLOps

通过定义关键概念,我们可以专注于两者之间的细微差别。

图 3.端到端机器学习生命周期,展示核心 MLOps (灰色)和 GenAIOps 功能(绿色)

MLOps

MLOps 为在生产环境中开发、训练、评估、优化、部署、推理和监控机器学习模型的结构化方法奠定了基础。

关键的 MLOps 概念和功能与生成式 AI 相关,包括以下内容。

  • **基础设施管理:**请求、调配和配置计算、存储和网络资源,实现以编程方式访问底层硬件。
  • 数据管理:收集、提取、存储、处理和标记数据以进行训练和评估。配置基于角色的访问控制;进行数据集搜索、浏览和探索;实施数据来源跟踪、数据记录、数据集版本控制、元数据索引、数据质量验证、数据集卡片和数据可视化控制面板。
  • **工作流与工作流管理:**使用云资源或本地工作站;将数据准备、模型训练、模型评估、模型优化和模型部署等步骤整合到一个结合数据和计算的端到端自动化且可扩展的工作流中。
  • **模型管理:**训练、评估和优化用于生产的模型;在集中式模型注册表中存储和版本化模型及其模型卡;评估模型风险并确保符合标准。
  • **实验管理与可观察性:**跟踪和比较不同机器学习模型实验,包括训练数据、模型和超参数的变化。自动搜索给定模型架构的可能模型架构和超参数空间;在推理过程中分析模型性能,监控模型输入和输出以检测概念漂移。
  • **交互式开发:**管理开发环境,并与外部版本控制系统、桌面 IDE 和其他独立开发者工具集成,使团队能够更轻松地制作原型、启动作业和 就项目开展协作

GenAIOps

GenAIOps 包括 MLOps、代码开发操作 (DevOps)、数据操作 (DataOps) 和模型操作 (ModelOps),适用于从语言到图像再到多模态的所有生成式 AI 工作负载。对于生成式 AI,必须重新考虑数据管护和模型训练、自定义、评估、优化、部署和风险管理。

新出现的 GenAIOps 功能包括:

  • 合成数据管理:利用新的原生生成式 AI 功能扩展数据管理。通过域随机化生成合成训练数据,以提高迁移学习能力。以声明方式定义和生成边缘案例,以评估、验证和认证模型的准确性和可靠性。
  • 嵌入管理:将任何模式的数据样本表示为密集的多维嵌入向量;在向量数据库中生成、存储和管理嵌入的版本。为了临时探索,可视化嵌入。通过 RAG 的向量相似性搜索、数据标注或数据管护(作为主动学习循环的一部分)查找相关的上下文信息。对于 GenAIOps,使用嵌入和向量数据库可以替代与 MLOps 相关的特征管理和特征存储。
  • 智能体/链管理:定义复杂的多步骤应用程序逻辑。将多个基础模型和 API 组合在一起,并按照 RAG 模式使用外部内存和知识增强基础模型。调试、测试和追踪具有非确定性输出或复杂规划策略的链,实时和离线可视化和检查多步骤链的执行流程。智能体/链管理作为推理管道的关键部分,在整个生成式 AI 生命周期中具有重要价值。它是 MLOps 工作流/管道管理的扩展。
  • 护栏:在将对抗或不支持的输入发送到基础模型之前,拦截这些输入。确保模型输出准确、相关、安全可靠。维护和检查对话和活动上下文的状态,检测意图,并在执行内容策略的同时决定操作。护栏基于模型管理中涵盖的 AI 输入/输出的基于规则的预/后处理构建。
  • **提示管理:**包括 create (创建)、store (存储)、compare (比较)、optimization (优化) 和 version promotions (版本提示)。在测试期间分析输入和输出并管理测试用例,进行 提示工程。创建参数化提示模板,在用户与应用程序交互期间选择推理时间的最佳超参数和系统提示作为起点;并为每个基础模型调整提示。具有独特功能的提示管理是生成式 AI 实验管理的逻辑扩展。

LLMOps

LLMOps 是更广泛的 GenAIOps 范式的子集,专注于为基于 Transformer 的网络的生产应用中的语言用例操作。语言是一种基础模式,可以与其他模式相结合,以指导 AI 系统的行为。例如,NVIDIA Picasso 是一种结合文本和图像模式的多模态系统,用于视觉内容制作。

在这种情况下,文本驱动 AI 系统的控制循环,并将其他数据模式和基础模型用作特定任务的插件。自然语言界面扩展了用户和开发者基础,降低了 AI 采用门槛。LLMOps 下包含的一组操作包括提示管理、代理管理和 RAGOps.

借助 RAGOps 推动生成式 AI 的采用

RAG 是一种旨在增强通用型 LLM 功能的工作流。在查询期间整合专有数据集的信息并为生成的事实答案奠定基础,可确保事实正确性。虽然无需外部知识即可针对情感分析等任务对传统模型进行微调,但 RAG 专为受益于访问外部知识来源的任务(如问答)而定制。

RAG 将信息检索组件与文本生成器集成在一起。此过程包括两个步骤:

  1. **文档检索和提取:**提取文档并使用嵌入模型对文本进行分块的过程,以将其转换为向量并存储在向量数据库中。
  2. **用户查询和响应生成:**用户的查询在查询时会与嵌入模型一起转换为嵌入空间,而嵌入模型则用于在向量数据库中搜索最接近的匹配块和文档。原始用户查询和排名最高的文档被输入到自定义的生成器 LLM 中,该生成器会生成最终响应并将其返回给用户。

它还具有无需全面重新训练即可更新其知识的优势。这种方法可确保生成的响应的可靠性,并解决输出中的"幻觉"问题。

图 4.检索增强生成 (RAG) 序列图

RAGOps 是 LLMOps 的扩展。这涉及管理传统意义上的文档和数据库以及矢量化格式,以及嵌入和检索模型。RAGOps 将生成式 AI 应用开发的复杂性提炼成一种模式。因此,它使更多的开发者能够构建功能强大的新应用,并降低 AI 采用的门槛。

GenAIOps 提供许多业务优势

随着研究人员和开发者掌握 GenAIOps,将其扩展到 DevOps、DataOps 和 ModelOps 之外,将带来许多业务优势。其中包括以下内容。

  • **加快上市时间:**通过自动化和加速端到端的生成式 AI 工作流程,可以缩短 AI 产品的迭代周期,使组织更加灵活,并能迅速适应新挑战。
  • **更高的产量和创新:**通过简化 AI 系统的开发流程并提升抽象化水平,GenAIOps 能够进行更多实验,增加企业应用程序开发者的参与度,从而优化 AI 产品的发布。
  • **风险缓解:**基础模型有可能彻底改变行业,但也有可能放大其训练数据中固有的偏差或不准确之处。一个基础模型的缺陷会传播到所有下游模型和应用链。GenAIOps 能够确保在最大限度地减少这些缺陷并积极应对道德挑战方面保持前瞻性。
  • **简化协作:**GenAIOps 支持跨团队(从数据工程到研究,再到项目内的产品工程)的顺利交接,并促进跨项目的构件和知识共享。它需要严格的操作规范、标准化和协作工具,以保持多个团队的同步。
  • **精简运营:**GenAIOps 通过工作负载优化、日常任务自动化以及为 AI 生命周期中的每个阶段提供专用工具来帮助减少浪费,从而提高生产力并降低总体拥有成本 (TCO)。
  • **再现性:**GenAIOps 有助于维护代码、数据、模型和配置的记录,确保成功运行的实验可以按需复制。这对于受监管行业尤其重要,因为在这些行业中,再现性不仅仅是一项功能,而是开展业务的一项重要要求。

生成式 AI 的变革潜力

将 GenAIOps 纳入组织结构不仅仅是一项技术升级,而是一项战略举措,对整个企业的客户和最终用户具有长期积极影响。

  • **增强用户体验:**GenAIOps 能够在生产环境中确保 AI 应用运行的最佳性能。企业可以通过聊天机器人、自主代理、内容生成器或数据分析工具来提供更加丰富的用户体验。
  • **解锁新的收入来源:**借助 GenAIOps 助力的生成式 AI 定制应用,企业可以探索以前未知的领域,开辟新的收入来源并实现产品多样化。
  • **领先的道德标准:**在当今时代,品牌形象与道德因素密切相关。在 GenAIOps 的指导下,主动解决 AI 潜在问题的企业可以成为行业的领导者,并为其他企业树立可遵循的标杆。

AI 世界动态变化,发展迅速,潜力无限。基础模型在理解和生成文本、图像、分子和音乐方面具有无与伦比的能力,处于这场革命的前沿。

在研究从 MLOps 到 GenAIOps、LLMOps 和 RAGOps 的 AI 运营演变时,企业必须灵活、推进并优先考虑运营精度。通过全面了解 GenAIOps 并在战略上加以应用,组织随时准备塑造生成式 AI 革命的轨迹。

如何开始

通过浏览器试用在经过优化的 NVIDIA 加速硬件 / 软件堆栈上运行的先进生成式 AI 模型,NVIDIA AI Foundry

开始在 Omniverse 上进行 LLM 开发,使用 NVIDIA NeMo 端到端云原生框架,随时随地构建、自定义和部署生成式 AI 模型。

或者,您可以通过NVIDIA 培训参加我们由专家指导的课程和研讨会,这些课程和研讨会为学习者提供了发挥 NVIDIA 解决方案全部潜力所需的知识和实践经验。想了解更多关于生成式 AI 和 LLM 的信息,请查看我们专门的Gen AI/LLM 学习路径

阅读原文

相关推荐
gs8014021 小时前
ubuntu下 如何将 NVIDIA 内核驱动 升级到特定版本 如550.127
ubuntu·gpu·nvidia
扫地的小何尚7 天前
什么是大型语言模型
人工智能·语言模型·自然语言处理·机器人·gpu·nvidia
点云兔子8 天前
NX系列-使用 `nmcli` 命令创建 Wi-Fi 热点并设置固定 IP 地址
wifi·ip·nvidia·nx·hotspot·nano
self-motivation11 天前
gpu硬件架构
硬件架构·gpu·nvidia·tensor·cuda
程序员非鱼17 天前
深入解析神经网络的GPU显存占用与优化
人工智能·深度学习·神经网络·机器学习·nvidia·cuda
扫地的小何尚1 个月前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
布鲁格若门1 个月前
AMD CPU下pytorch 多GPU运行卡死和死锁解决
人工智能·pytorch·python·nvidia
centurysee1 个月前
【一文搞懂】GPU硬件拓扑与传输速度
gpu·nvidia
算家云2 个月前
moffee模型部署教程
人工智能·python·github·markdown·nvidia·ppt·幻灯片制作
坐望云起2 个月前
Ubuntu20.04 更新Nvidia驱动 + 安装CUDA12.1 + cudnn8.9.7
linux·ubuntu·nvidia·cuda·onnx·1024程序员节