数据平台的分层技术

一、前言

生成式 AI 的迅速崛起加剧了对构建 AI 模型和应用程序所需的 GPU 的需求，但许多企业不想处理拥有和容纳它们的复杂性或费用。 AI 云服务产品旨在改善这种访问，而数据平台是帮助我们的 GPU 以卓越性能更高效、更经济地大规模运行的关键，并将这些优势传递给我们的客户。构建数据平台将是AI的心脏，数据平台为生成式 AI （GenAI ）提供最快、最具可扩展性的文件系统，为任何云上模型开发的所有阶段提供开发人员期望的性能以及云承诺的可扩展性和简单性；构建数据平台管理生成式AI数据将是传统数据生产源头、数据加工人员、数据管理和决策人员的职业终身发展之路。

二、关系

数据平台是支撑智能体AI运行的基础设施，就像地球的能量和场强远远小于太阳而形成地球围绕太阳转，构建数据平台是为了发展智能AI,在大的能量和场强中，才会满足智能体AI存在的基本要求，而数据平台架构应满足以下要求：

高效性：平台应具备高效的数据处理能力，能够快速响应数据请求。

稳定性：平台应具有高可用性，能够确保数据的稳定传输和处理。

安全性：平台应提供严密的数据安全措施，保护数据免受未经授权的访问和泄露。

三、数据平台

数据平台的发展理念：当前的存储解决方案只能对传统设计进行渐进式改进，从而使计算性能和数据存储性能之间的差距不断扩大。存储仍然是应用程序性能的瓶颈，并且随着基于 GPU 的应用程序等领域的计算的持续密集化，问题变得更加严重。在当今竞争激烈的市场中，组织需要灵活的基础设施;应用程序工作负载变得越来越复杂，数据集继续不受控制地增长，迫使企业构建过于复杂和昂贵的系统，从而降低 IT 敏捷性。因此，重要的业务见解仍然被锁定，决策者无法触及。

IT 组织正在采用云技术，因为它具有流畅的按需可扩展性，可大规模支持各种工作负载。然而，虽然网络和计算可以虚拟化以非常有效地大规模运行，但存储仍然在很大程度上被隔离在基于系统性能配置文件的孤岛中。因此，组织被迫从无法扩展的构建块构建一个针对其环境和工作负载高度定制的存储系统。其结果是存储解决方案复杂、喜怒无常、价格昂贵且速度缓慢。

数据平台是一种集成的端到端解决方案，可在数据生命周期的每一步全面支持组织的数据管理需求。它是一种多租户、多工作负载、多性能和多位置的解决方案，旨在支持数字组织使用的所有数据，无论这些数据生成或存储在何处。数据平台还必须支持数据流动性，即跨边缘、核心、云、混合和多云配置的无摩擦数据移动。

根据本人所处的当前的集团来说，"数据管理团队需要新的能力来有效地利用从越来越多的来源挑选的大量数据中并从中提取价值。我们的目标是达到一个成熟度水平，实时提供洞察力，以跟上业务运营需求的步伐，加快创新速度，并建立竞争优势。"。企业中的数据必须发展成智能体AI的数据要素，成为其中一份子，壮大每一份子。你必须对可能发生的事情有远见，对你面前的机会有信心，对你的想法充满热情和信念，去承担别人不愿意承担的风险。

四、智能体AI

智能体AI是什么？具有智能的实体。可能重量比人类小，仿佛当今的智能手机；可能重量比地球大，可能以太阳来构建智能体的重量。根据当前定义，以云为基础，以AI为核心，构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统。在一个技术进步正在迅速重塑我们生活的世界中，遇到让我们惊叹的突破性创新并不少见。从人工智能和虚拟现实到可再生能源和自动驾驶汽车，可能性似乎是无穷无尽的。然而，每一项突破性的发明都伴随着健康的怀疑。毕竟，历史告诉我们，在面对好得令人难以置信的新技术时要谨慎。

五、智能体AI的两面性

智能体AI在人类的认识中发展，而人类本身也是一种智能体，从哲学的角度看事物，智能体AI同样具有两面性，多面性。怀疑是一件好事。它促使我们质疑看似神奇的发明的有效性、可行性和潜在缺点，并鼓励批判性思维，防止我们成为夸大主张或不切实际的期望的牺牲品。怀疑论还推动了对严格测试、评估和验证的需求，以确保技术安全、可靠和有益。通过以健康的怀疑态度对待新技术，我们可以促进负责任的创新，降低风险，并最终建立一个进步既具有变革性又值得信赖的未来。然而，当走到极端时，怀疑主义也可能有缺点；它会阻碍进步，导致错失机会，减缓创新，延长怀疑，扼杀创造力。

六、当前的智能体AI背后的数据平台的分层技术思考

只要人类在地球上存在，数据分层技术就已经存在。人脑可以在记忆中存储近乎无限量的信息，但只有一小部分存储在"我们的指尖"部分------这就解释了为什么我们记住某些细节的速度比其他细节更快。在大多数情况下，我们应用上下文过滤器，这些密钥允许我们搜索有关存储在内存中的信息的元数据，以回忆最近甚至几年前可能发生的事件。人们如何从技术中受益，以推动高效运营，同时加速其环境中的业务成果。

计算机系统还采用数据分层，利用不同级别的处理器缓存和 RAM 来存储和访问数据。像ChatGPT这样的高级存储平台也不例外。智能体AI的数据平台在对象存储中存储数百 PB 的数据，同时在 NVMe 存储中保留数据密集型应用程序所需的最新版本的工作数据集。它利用分层技术高效、优化地将数据放置在 NVMe 存储中，以在应用程序需要时推动高性能。

传统上，文件系统中的数据分层完全由数据老化策略驱动。系统中设置的信息生命周期策略根据数据的访问频率确定数据的价值。如果一段时间未访问数据，则其价值将被视为低，并将移至低成本、低性能的存储层，从而降低总拥有成本（TCO）。数据老化策略在需要时调用分层数据;这将在后台启动高性能和低性能存储层之间的数据迁移，以避免对应用程序性能产生任何影响。在许多传统存储系统中，分层是使用分层存储管理（HSM）软件执行的，该软件将不同二级或三级存储解决方案之间的数据移出带外，这意味着在许多情况下，HSM 应用程序需要知道它需要哪些数据，然后要求将其移动到适当的存储层进行访问。换言之，应用程序要求将数据从备份层移动到要处理的更快层。

AI数据平台在所有存储节点上运行（容器化）的数千个虚拟元数据进程之间分配元数据责任。每个文件都负责命名空间的某个部分（例如，文件 A 由虚拟元数据进程 1 处理，而文件 B 由虚拟元数据进程 2 处理），甚至单个文件中的不同块范围也由不同的虚拟元数据进程管理。这允许对元数据处理进行非常精细的控制，并消除任何可能的元数据瓶颈，这意味着对于任何 IO 模式，整个系统中虚拟元数据进程的负载都是相等的。当将数据分层到多个文件系统的不同对象存储桶时，这些虚拟元数据进程将分别负责并行写入和读取自己的数据，从而最大限度地提高对象存储性能。相比之下，传统解决方案使用的网关节点仅将数据动态或按需引入对象存储，并成为性能瓶颈。虚拟元数据进程将利用大小为 64MB 的对象来最大限度地提高对象存储性能;这是通过将大文件拆分为 64MB 块或将多个小文件分摊到 64MB 对象来实现的。从对象存储中读取时，虚拟元数据服务器将仅读取对象所需的相关字节范围（例如，如果需要 4KB 文件，则它们将从 64MB 对象读取 4KB 字节范围，而不是引入整个对象）。这使数据运营团队能够更精细地对数据进行分层，从而更好地利用资源。