AI 数据观 | 大模型私有化部署落地过程中，那些容易被忽视的“数据集成”难题

时间进入 2024 年 3 月，这场由 AI 大模型引发的技术热潮仍未退却，且大有愈演愈烈之势。在过去一个月里，AI 界动态也在不断刷新：Meta 计划今年 7 月推出开源模型 Llama 3，阿里推出音频驱动的肖像视频生成框架 EMO，英伟达最新发布的 GPU 芯片将 AI 性能提高 1400%，OpenAI发布文生视频模型 Sora......
这样的背景下，如何让 AI 真正成为推进企业现代化的一环，为组织生产运营创造价值，就成了企业需要思考的新问题。

大语言模型（LLM）和生成式 AI 的出现标志着技术的重大飞跃，同时也承载着为各行各业带来变革性创新的希望。尽管如此，在全球竞相开发下一代人工智能应用的浪潮中，新的挑战与障碍也迅速涌现。这是因为，虽然 LLM 功能强大、能力突出，但在企业环境下应用时的局限性和弱点也客观存在。

其中，一大关键的限制就在于，LLM 的智能程度取决于它们所训练的数据，而对于目前的大多数企业而言，这就约等于 LLM 对其一无所知，从而无法针对性地提供其所需的帮助或服务。

纵使如今的大语言模型已然"满腹经纶"、"学贯古今"，但很遗憾，如果没有特别进行补充集成，他们仍然无法打破信息壁垒，当被问及您的客户、产品、员工等信息，也唯有"一问三不知"。简言之，我们眼下面临的挑战，是如何将这些知识注入这些下一代生成式人工智能应用中，为其提供所需信息。

检索增强生成技术：让企业真正获得 AI 力量的关键所在

虽然理论上，我们可以通过输入更多信息对现有基础模型进行训练和微调，帮助其逐渐了解企业数据和信息，但这条路上往往充斥着更多复杂的挑战。重新训练大语言模型所需的成本和技能足以令大多数企业望而却步，不仅如此，考虑到时刻保持 LLM 掌握最新数据和信息的需求，还需要持续对其进行重新训练并迭代，因而可实操性并不高。此外，鉴于我们目前对大语言模型的工作原理及其数据泄露风险预防仍然知之甚少，用可能涉及敏感信息的企业知识库来训练模型这件事本身，也始终存在隐患。

幸运的是，一种新兴的实施模式有望克服这一局限性，能够以一种安全有效的方式在企业环境中提供其所需的知识。这便是检索增强生成（Retrieval Augment Generation，RAG）。这一架构最早由 Meta 公司在 2020 年发表的一篇论文中提出并讨论，正迅速成为以经济、安全的方式利用额外数据增强大模型的首选方法。

在传统的机器学习使用案例中，数据在前期训练过程中发挥着至关重要的作用，但生成式 AI 和 RAG 正在改变这种范式，并要求数据在推理过程中发挥知识增强层的作用。RAG 架构不是通过重新训练模型将知识注入 LLM，而是在提示过程中通过额外的上下文窗口增加知识。然后，LLM 可以利用所提供的附加上下文来生成必要的响应，而无需将知识嵌入 LLM 本身。

这种简单的方法可应用于结构化和非结构化信息，是为 LLM 提供额外知识和信息的一种更敏捷、更经济、更安全（就数据泄漏而言）的方式。再加上 LLM 强大的代码（如 SQL）生成能力，使用 RAG 的下一代人工智能应用可以为企业开辟新型的强大用户交互方式和释放数据价值的新途径。当然，前提是具备在企业环境中实施 RAG 所必要的数据管理基础。

虽然现在我们可以在 GitHub 上找到大量简单的项目，展示 RAG 在桌面环境中针对单个表的强大功能。但在企业环境中，我们面对的通常是孤岛式的、复杂的企业数据景观，因此针对其中的真实生产数据实施 RAG 架构可能会是一场噩梦。在我们探索 LLM 与企业存储库之间更紧密集成的过程中，我们将不可避免地遇到同样的数据管理挑战，包括克服数据孤岛、处理各种数据源类型以及管理复杂而冗长的数据交付管道。

由人工智能驱动的新竞争格局正在不断逼近，企业必须进化并重新构想自身的数据管理，建立必要的数据管理基础，为迎接新挑战做好准备。

生成式 AI 应用的数据管理基础

统一的数据访问层一直是提供业务洞察和推动业务成功的关键所在。但是，下一代人工智能应用面前，组织有能力充分利用其所掌握的数据将变得更加重要，无论这些数据存储在哪里，以何种形式存在。随着大语言模型和生成式 AI 技术的不断演进，企业还需要一个灵活敏捷的数据管理基础，以便快速添加新的数据源，轻松开发新的数据视图，以支持新兴的人工智能用例。一个灵活且适应性强的数据管理层，也大大增强了企业随时更换 AI 服务的"底气"，得以轻松采纳更新、更好、更便宜的方案。

该数据管理基础中的语义层可针对结构化数据视图提供丰富而强大的上下文。这确保了 AI 应用可以找到适当的数据视图（使用嵌入和向量数据库等技术），也确保了大模型可以以所需的形式获取所需的数据。具有丰富语义层的逻辑数据层可以最小化底层数据库技术和查询协议的复杂性，同时可以极大地简化由大模型驱动的 AI 应用的开发。

作为 AI 应用的访问和查询引擎，未来的数据管理基础需要提供针对所有数据存储库的可扩展、高性能的访问优化。这意味着要深入了解底层数据库和数据湖技术的性能特征和约束，而这也正是大模型目前专业知识缺乏的领域。虽然大模型在生成 SQL 代码和分析结构化数据方面能力出众，但并未被训练成查询优化引擎。生成式 AI 应用需要一个数据管理层，使之可以依靠该数据管理层，通过成熟且经过验证的优化技术，以最高效的方式查询所有数据存储库。

最后，在开发生成式 AI 应用时，我们必须进一步提高数据治理和数据安全要求。鉴于破解提示（LLM/prompt Hacking）和数据泄漏的威胁客观存在，我们需要一个数据管理层来持续有效地监控、报告并保护我们的数据访问。我们需要一个全局安全策略引擎，定义并执行 AI 应用如何以动态和可扩展的方式使用数据。

逻辑数据编织（Data Fabric）：AI 集成数据的法门

继续从数据管理的角度来分析，我们发现逻辑数据编织是推动下一代 AI 应用的关键因素。

数据编织概念由 Forrester 在 2000 年首次提出。2022 年，Gartner 在重要战略技术趋势报告中，第三次把"数据编织"列为十大技术趋势之一。Gartner 将其定义为"包含数据和连接的集成层，通过对现有的、可发现和可推断的元数据资产进行持续分析，来支持数据系统跨平台的设计、部署和使用，从而实现灵活的的数据交付"。
与数据中台类似，数据编织本质上是一种数据架构理念，通过提供一种统一的方法来管理异构数据工具链，能够将可信数据从所有相关数据源，以灵活且业务可理解的方式交付给所有相关数据消费者，从而提供比传统数据管理更多的价值。

数据编织通过对各种各样的企业数据系统的无代码连接和打通，可以是数据复制也可以是通过数据联邦方式，快速智能的在数据系统之间建立便捷的访问通道。

而 Tapdata 作为内置 100+ 数据连接器的实时数据平台，拥有强大的实时连接能力，结合低代码拖拉拽的数据管道开发能力及对数十种常用数据库无代码快速构建 API 的能力，可以用来为数据编织架构提供一个完整的工具支撑。

与此同时，利用数据虚拟化技术，在增强 AI 应用之前无需移动或整合数据。Tapdata 为 AI 用用访问数据集提供了一个单一、集中的入口，同时展现出许多关键优势：

统一、安全的访问点，供大模型与所有企业数据（ERP、操作数据集市 Operational Data Mart、EDW、应用 API）进行交互和查询
丰富的语义层。为大模型提供所需的业务上下文和知识（如表说明、业务定义、类别/标签和样本值）
快速交付逻辑数据视图，与底层技术数据视图解耦并抽象出来（这些技术数据视图可能难以被大模型使用）
交付大模型友好的宽逻辑表视图，而无需在物理层面将多个数据集实际合并在一起
......

我们有理由相信，Tapdata + Data Fabric 这一方案，有望成为生成式 AI 应用最关键的组件之一，也就是企业数据的服务层。大模型和逻辑数据编织的结合可以大大加快强大的智能体（AI Agents）的开发。

要充分发挥由大模型驱动的 AI Agents 的潜力，需要整个行业持续的技术进步和创新。就 Tapdata 而言，不断迭代的实时数据能力，正在酝酿着与更多包含人工智能在内的新兴技术的结合与推进。帮助数据真正成为供给人工智能未来需求的燃料。例如，我们正在挖掘对向量数据库等技术的支持方案，这可以进一步简化 RAG 的使用。这些功能将有助于为用户提供现在和未来一段时间内所需的必要的数据管理基础。

展望：为生成式 AI 广泛启用的未来做准备

在这个大模型遍地，每个人都在使用相同的基础模型的时代，企业自身数据的有效利用将最终转化为竞争优势。从这个角度来看，一切都没有改变。改变的是企业需要考虑如何数据管理，以充分释放生成式 AI 的全部潜力。

当我们站在生成式 AI 真正大面积启用的未来边缘时，需要重点思考的问题是：您是否拥有必要的数据架构和数据管理基础，要求不仅能够有效利用生成式 AI，还要能够建立可持续增长的长久竞争优势。